テストデータ(Test Data)とは、学習済みモデルの最終的な性能評価に使用するデータです。モデルの学習やハイパーパラメータの調整には一切使用せず、本番環境での性能を推定するために用いられます。
テストデータの役割
テストデータは「未知のデータ」を模擬するものであり、モデルの汎化性能を公平に評価するために不可欠です。テストデータに対する性能が、実運用における期待性能の最良の推定値となります。
データリーク(情報漏洩)の防止
テストデータの情報が学習過程に混入する「データリーク」は、性能を過大評価する深刻な問題です。データの分割は前処理の前に行い、テストデータの統計量が特徴量エンジニアリングに使われないよう注意が必要です。