統計的有意性

Statistical Significance

統計的有意性とは

統計的有意性(Statistical Significance)とは、観察された結果が偶然によるものではなく、真の差や効果を反映している可能性が高いことを示す統計的概念です。機械学習のモデル評価では、モデル間の性能差が統計的に有意かどうかを検証することで、信頼性の高い比較を行います。

仮説検定の基本

統計的有意性は仮説検定により判定されます。帰無仮説(モデル間に差がない)を設定し、データから計算されたp値が有意水準(通常0.05)を下回れば帰無仮説を棄却し、統計的に有意な差があると結論します。ただし、p値が小さいことは効果の大きさを保証するものではありません。

モデル比較での検定手法

モデル比較では、McNemar検定(二値分類の正誤パターンの比較)、対応のあるt検定(交差検証結果の比較)、Wilcoxon符号順位検定(ノンパラメトリックな比較)、ブートストラップ検定などが使用されます。複数のモデルを同時に比較する場合は、多重比較補正(Bonferroni補正など)も考慮する必要があります。

実務上の注意点

統計的有意性だけでは十分ではなく、効果量(Effect Size)や実用的な有意性も考慮すべきです。大量のデータがあれば些細な差でも統計的に有意になりますが、実用上意味のある差とは限りません。信頼区間の報告やベイズ的アプローチの併用が推奨されています。