鈴木清へのご意見書き込み帳
相関係数と決定係数 - 鈴木清
2024/06/13 (Thu) 17:31:31
相関係数と決定係数(coefficient of determination)について、よく勘違いされているようです。私も勘違いしていました。
相関係数には複数の種類があり、そのうちでもピアソンの積率相関係数がよく用いられます。
関連情報が、
2024年の6月13日時点では
https://atmarkit.itmedia.co.jp/ait/articles/2110/13/news027.html
にも記されています。
決定係数にも複数の定義があり、誤用されている(いた)ようです。
詳しくは、
Tarald O. Kvalseth, "Cautionary Note about R2", The American Statistician, Vol. 39, No. 4, November 1985.
をお読み下さい。
ピアソンの積率相関係数を鈴木なりに説明すると、以下のようになります。
ピアソンの積率相関係数とは、二種の値(それらをxとyと記します)の組のデータが複数ある場合に、
データを全体的にとらえて、xが増加すると、yが増加する傾向があるかを意味します。
定義は、xとyの共分散を、xの標準偏差とyの標準偏差の積で割った値になります。
xとyを入れ替えても、ピアソンの積率相関係数の値は変わりません。
このピアソンの積率相関係数の値を二乗したものが、上記のKvalsethの論文で定義された、5番目の決定係数と等しくなります。
たとえば、実数yが実数xの絶対値である場合、すなわち
y=|x|
を満たす場合、
x=-2,-1,0,0,1,2
のデータ6組がある場合には、
その上記の相関係数と上記の決定係数は0になります。
全データを全体的にとらえると、x=0に対して線対称になっているので、xが増加する場合のyの増減はないとみなされるからです。この場合、
y=|x|という明確な関係があるように見えますが、上記の相関係数と上記の決定係数は、0になり、無関係であると解釈されます。
y=|x|という相関を行い、その相関値との相関係数や決定係数(上記の値とは異なる定義)を考えると、そのような相関係数と決定係数が1になる場合もあります。