ブートストラップ信頼区間とは
ブートストラップ信頼区間(Bootstrap Confidence Interval)とは、統計的推定値の不確実性をブートストラップ法を用いて定量化する手法です。元のデータから復元抽出(同じサンプルが複数回選ばれる抽出)を繰り返してリサンプルを生成し、各リサンプルでの推定値の分布から信頼区間を構成します。
ブートストラップ法の仕組み
ブートストラップ法では、元のデータセット(サイズn)からn個のサンプルを復元抽出してリサンプルを作成し、この操作をB回(通常1000回以上)繰り返します。各リサンプルで評価指標(精度、F1スコアなど)を計算し、B個の推定値の分布を得ます。この分布のパーセンタイルから信頼区間を構築します。
モデル評価への応用
機械学習のモデル評価において、テストセットでの性能指標に信頼区間を付与することで、単一のスコアだけでは分からない推定の不確実性を表現できます。例えば「精度85% (95%信頼区間: 82%-88%)」のように報告することで、性能の信頼性をより正確に伝えることができます。
モデル比較への活用
2つのモデルの性能差にブートストラップ信頼区間を適用することで、統計的に有意な差があるかを判断できます。信頼区間が0を含まなければ有意な差があると見なせます。パラメトリックな仮定が不要なため、さまざまな評価指標に汎用的に適用できる柔軟な手法です。