次元削減(Dimensionality Reduction)とは、データの本質的な情報を保持しながら、特徴量の数(次元数)を減らす手法の総称です。データの可視化、計算効率の向上、過学習の防止に有効です。
線形手法と非線形手法
線形手法の代表は主成分分析(PCA)で、データの分散を最大化する方向に射影します。非線形手法にはt-SNE、UMAP、オートエンコーダーなどがあり、複雑なデータ構造を捉えることができます。
次元の呪い
高次元データでは、データ間の距離が均一化する「次元の呪い」が発生し、k-NNなどの距離ベースの手法の性能が大幅に低下します。次元削減はこの問題を根本的に解決するアプローチです。