データ汚染（ガバナンス）とは？わかりやすく解説

データ汚染とは

データ汚染（Data Contamination）とは、機械学習モデルの学習データにテストデータやベンチマークデータが混入してしまう現象のことです。大規模言語モデル（LLM）の時代において特に問題視されており、Webから収集された大量のテキストデータの中にベンチマークの問題と回答が含まれることで、モデルの評価結果が実際の能力を過大評価するリスクがあります。

データ汚染の種類と影響

直接的な汚染は、ベンチマークの問題文と回答がそのまま学習データに含まれるケースです。間接的な汚染は、ベンチマークの問題を解説するブログ記事や論文など、問題の内容を含む二次的な情報源が混入するケースです。いずれの場合も、モデルがベンチマークで高いスコアを達成しても、実際のタスクで同等の性能を発揮できない「見せかけの高性能」が生じます。これは研究の再現性やモデルの公正な比較を阻害する深刻な問題です。

ガバナンスによる対策

データ汚染への対策として、学習データの厳密な管理と検証が重要です。具体的には、学習データとテストデータの重複検出ツールの活用、データ収集パイプラインでのフィルタリングルールの設定、定期的なベンチマークの刷新、汚染チェックの結果の公開（データカードやモデルカードへの記載）などが挙げられます。また、新しいベンチマークの作成時には、問題の非公開保持や動的なベンチマーク生成の仕組みも検討されています。

データ汚染とは

データ汚染の種類と影響

ガバナンスによる対策

関連用語