外れ値

Outlier

外れ値(Outlier)とは、データセットの大部分のデータポイントから大きく外れた異常な値を持つデータポイントです。計測エラー、データ入力ミス、または真に稀な事象を反映している場合があり、適切な検出と処理が機械学習の前処理において重要です。

外れ値の検出方法

IQR法(四分位範囲の1.5倍を超える値)、Zスコア法(平均から3標準偏差以上離れた値)、Isolation Forest、LOF(Local Outlier Factor)、箱ひげ図による視覚的検出などがあります。

外れ値の処理

除外、置換(上限値・下限値でクリッピング)、対数変換による影響の軽減、ロバストな手法(中央値や四分位数を使用)の利用など、状況に応じた処理方法を選択します。

外れ値を残すべき場合

異常検知タスクでは外れ値こそが分析対象です。また、真に稀な事象を反映している外れ値は、安易に除去すべきではありません。ドメイン知識に基づいた判断が重要です。