分布シフト

Distribution Shift

分布シフトとは

分布シフト(Distribution Shift)とは、AIモデルの訓練データの統計的分布と、実際の運用環境で遭遇するデータの分布が異なる現象です。モデルは訓練データの分布に最適化されているため、分布が変化すると性能が著しく低下する可能性があり、AI安全性における重要なリスク要因です。

分布シフトの種類

分布シフトにはいくつかの種類があります。共変量シフト(入力データの分布が変化)、ラベルシフト(出力の分布が変化)、概念シフト(入力と出力の関係性が変化)、データセットシフト(訓練データの収集バイアスによるシフト)などです。それぞれ異なるメカニズムで発生し、異なる対策が必要です。

安全性への影響

分布シフトは、特にセーフティクリティカルなシステムで深刻な問題を引き起こします。自動運転車が未知の気象条件で誤判断する、医療AIが異なる人口統計の患者に対して精度が低下する、金融AIが市場の構造変化に対応できないなどの事例が報告されています。モデルが「何を知らないか」を認識できない場合、過信した誤った判断を下す危険性があります。

対策と検出

分布シフトの対策としては、ドメイン適応(Domain Adaptation)、ドメインランダム化、分布外検出(Out-of-Distribution Detection)、継続的な学習と再訓練、分布的に堅牢な最適化(DRO)などの手法が研究されています。運用環境でのデータ分布の継続的なモニタリングと、性能劣化の早期検出システムの構築も実務上重要です。