分布シフトとは？わかりやすく解説

分布シフトとは

分布シフト（Distribution Shift）とは、AIモデルの訓練データの統計的分布と、実際の運用環境で遭遇するデータの分布が異なる現象です。モデルは訓練データの分布に最適化されているため、分布が変化すると性能が著しく低下する可能性があり、AI安全性における重要なリスク要因です。

分布シフトの種類

分布シフトにはいくつかの種類があります。共変量シフト（入力データの分布が変化）、ラベルシフト（出力の分布が変化）、概念シフト（入力と出力の関係性が変化）、データセットシフト（訓練データの収集バイアスによるシフト）などです。それぞれ異なるメカニズムで発生し、異なる対策が必要です。

安全性への影響

分布シフトは、特にセーフティクリティカルなシステムで深刻な問題を引き起こします。自動運転車が未知の気象条件で誤判断する、医療AIが異なる人口統計の患者に対して精度が低下する、金融AIが市場の構造変化に対応できないなどの事例が報告されています。モデルが「何を知らないか」を認識できない場合、過信した誤った判断を下す危険性があります。

対策と検出

分布シフトの対策としては、ドメイン適応（Domain Adaptation）、ドメインランダム化、分布外検出（Out-of-Distribution Detection）、継続的な学習と再訓練、分布的に堅牢な最適化（DRO）などの手法が研究されています。運用環境でのデータ分布の継続的なモニタリングと、性能劣化の早期検出システムの構築も実務上重要です。