データリークとは？わかりやすく解説 | AI用語集

データリーク（Data Leakage / 情報漏洩）とは、モデルの学習や評価の過程で、本来利用できないはずの情報が混入してしまう問題です。モデルの性能を過大評価し、本番環境で期待通りに動作しない原因となります。

データリークの種類

ターゲットリーク（目的変数の情報を含む特徴量の使用）、トレーニング-テストリーク（テストデータの情報が訓練に漏れる）、時間リーク（未来の情報を使用）が主な種類です。

よくあるリーク原因

データ分割前の前処理（全データで正規化してから分割）、テストデータの統計量を用いた特徴量エンジニアリング、時系列データの不適切な分割、重複データの存在などが典型的です。

防止策

前処理は訓練データのみの統計量で行う、パイプライン化して処理順序を保証する、時系列データでは時間順に分割する、ドメイン知識で不自然に予測力の高い特徴量を疑う、などが重要です。

← 機械学習の基礎一覧に戻る AI用語集 TOPへ →