データリーク

Data Leakage

データリーク(Data Leakage / 情報漏洩)とは、モデルの学習や評価の過程で、本来利用できないはずの情報が混入してしまう問題です。モデルの性能を過大評価し、本番環境で期待通りに動作しない原因となります。

データリークの種類

ターゲットリーク(目的変数の情報を含む特徴量の使用)、トレーニング-テストリーク(テストデータの情報が訓練に漏れる)、時間リーク(未来の情報を使用)が主な種類です。

よくあるリーク原因

データ分割前の前処理(全データで正規化してから分割)、テストデータの統計量を用いた特徴量エンジニアリング、時系列データの不適切な分割、重複データの存在などが典型的です。

防止策

前処理は訓練データのみの統計量で行う、パイプライン化して処理順序を保証する、時系列データでは時間順に分割する、ドメイン知識で不自然に予測力の高い特徴量を疑う、などが重要です。