主成分分析(PCA)

Principal Component Analysis

主成分分析(PCA: Principal Component Analysis)とは、高次元データの分散を最大化する方向(主成分)を見つけ出し、より少ない次元にデータを射影する線形次元削減手法です。データの可視化や前処理として広く使われています。

PCAの仕組み

PCAは、データの共分散行列の固有値分解を通じて主成分を求めます。第1主成分はデータの分散が最大となる方向、第2主成分は第1主成分と直交し次に分散が大きい方向、というように順次求めていきます。

寄与率と累積寄与率

各主成分の固有値は、その主成分が説明するデータの分散の大きさを表します。寄与率(固有値の比率)と累積寄与率を確認し、情報の大部分(例えば累積寄与率90%以上)を保持できる次元数を選択するのが一般的です。

注意点

PCAは線形手法であるため、非線形な構造を持つデータには不向きです。また、PCAを適用する前にデータの標準化が必要です。スケールが異なる特徴量があると、分散の大きい特徴量に引きずられてしまいます。