ドリフト検出

Drift Detection

ドリフト検出とは

ドリフト検出とは、機械学習モデルの入力データや予測対象の性質が時間とともに変化する現象(ドリフト)を自動的に検知する技術です。データドリフト(入力データの分布変化)とコンセプトドリフト(入力と出力の関係性の変化)が主な検出対象です。ドリフトの発生はモデルの予測精度低下につながるため、早期に検知して対策を講じることが重要です。

ドリフトの種類と検出手法

データドリフトは、学習データと本番データの統計的分布の差異として検出されます。KS検定、PSI(Population Stability Index)、KLダイバージェンスなどの統計的手法が用いられます。コンセプトドリフトは、モデルの予測精度の変化を監視することで検出します。突発的なドリフト、漸進的なドリフト、周期的なドリフトなど、変化のパターンも多様であり、それぞれに適した検出手法を選択する必要があります。

ドリフト検出の実務的対応

ドリフトが検出された場合、対応策にはいくつかの選択肢があります。軽微な場合はモデルの再学習(リトレーニング)で対応し、大幅な変化があった場合はモデルの再設計が必要になることもあります。自動再学習パイプラインを構築しておくことで、ドリフトへの迅速な対応が可能になります。ビジネスへの影響を考慮した閾値設定と、適切なエスカレーションルールの整備も実務上重要です。