t-SNEとは？わかりやすく解説 | AI用語集

t-SNE（t-distributed Stochastic Neighbor Embedding）とは、高次元データを2次元または3次元に可視化するための非線形次元削減手法です。データ点間の類似度を保存しながら低次元に射影することで、クラスタ構造を視覚的に把握できます。

t-SNEの特徴

t-SNEは高次元空間でのデータ点間の類似度をガウス分布で、低次元空間ではt分布でモデル化し、両者のKLダイバージェンスを最小化します。t分布を使うことで、遠く離れた点をより分離して表現でき、クラスタが明確に分かれた可視化が可能です。

パープレキシティ

perplexity（パープレキシティ）はt-SNEの重要なハイパーパラメータで、各点の「近傍」の範囲を制御します。一般的に5〜50の値が使用され、データの密度やサイズに応じて調整が必要です。

注意点と限界

t-SNEは計算コストが高く（O(n²)）、大規模データには不向きです。結果が確率的で再現性が低い、グローバルな構造を保存しにくいなどの限界があります。これらの問題を改善したUMAPが近年注目されています。

← 機械学習の基礎一覧に戻る AI用語集 TOPへ →