次元の呪い(Curse of Dimensionality)とは、データの次元数(特徴量の数)が増加するにつれて、機械学習アルゴリズムの性能が低下したり、必要なデータ量が指数的に増加したりする現象です。
なぜ問題になるか
高次元空間では、データ点間の距離が均一化(すべてのデータが互いにほぼ等距離になる)し、距離ベースの手法(k-NN、クラスタリング等)の有効性が著しく低下します。また、空間の体積が指数的に増大するため、データがスパース(まばら)になります。
対処法
特徴量選択(不要な特徴量の除去)、次元削減(PCA、t-SNEなど)、正則化、より多くのデータの収集などで対処します。深層学習は高次元データからの効率的な特徴抽出に優れています。