データリーク(Data Leakage / 情報漏洩)とは、モデルの学習や評価の過程で、本来利用できないはずの情報が混入してしまう問題です。モデルの性能を過大評価し、本番環境で期待通りに動作しない原因となります。
データリークの種類
ターゲットリーク(目的変数の情報を含む特徴量の使用)、トレーニング-テストリーク(テストデータの情報が訓練に漏れる)、時間リーク(未来の情報を使用)が主な種類です。
よくあるリーク原因
データ分割前の前処理(全データで正規化してから分割)、テストデータの統計量を用いた特徴量エンジニアリング、時系列データの不適切な分割、重複データの存在などが典型的です。
防止策
前処理は訓練データのみの統計量で行う、パイプライン化して処理順序を保証する、時系列データでは時間順に分割する、ドメイン知識で不自然に予測力の高い特徴量を疑う、などが重要です。