R2スコアとは
R2スコア(R-squared、決定係数)とは、回帰モデルが目的変数の変動をどの程度説明できるかを示す評価指標です。0から1の範囲の値を取り、1に近いほどモデルがデータの変動をよく説明していることを意味します。統計学と機械学習の両方で広く使用される基本的な指標です。
R2スコアの計算と解釈
R2スコアは 1 -(残差平方和 / 全変動平方和)で計算されます。R2=0.8であれば、モデルが目的変数の変動の80%を説明していると解釈できます。R2=0はモデルが平均値予測と同等であることを、R2=1はモデルが完全に予測していることを示します。負の値になる場合もあり、これは平均値予測よりも悪い予測をしていることを意味します。
R2スコアの注意点
R2スコアは説明変数を追加すると常に増加するため、変数選択の基準としては不適切な場合があります。この問題を解決するために調整済みR2(Adjusted R2)が使われます。また、非線形な関係がある場合やデータの範囲外での予測では、R2スコアが誤解を招くことがあります。
他の回帰指標との関係
R2スコアはMSEやRMSEと密接に関連しますが、スケールに依存しない相対的な指標であるため、異なるデータセット間でのモデル比較にも使用できます。ただし、R2だけでなくRMSEやMAEも併用して総合的にモデルの予測性能を評価することが推奨されます。