t-SNE

t-distributed Stochastic Neighbor Embedding

t-SNE(t-distributed Stochastic Neighbor Embedding)とは、高次元データを2次元または3次元に可視化するための非線形次元削減手法です。データ点間の類似度を保存しながら低次元に射影することで、クラスタ構造を視覚的に把握できます。

t-SNEの特徴

t-SNEは高次元空間でのデータ点間の類似度をガウス分布で、低次元空間ではt分布でモデル化し、両者のKLダイバージェンスを最小化します。t分布を使うことで、遠く離れた点をより分離して表現でき、クラスタが明確に分かれた可視化が可能です。

パープレキシティ

perplexity(パープレキシティ)はt-SNEの重要なハイパーパラメータで、各点の「近傍」の範囲を制御します。一般的に5〜50の値が使用され、データの密度やサイズに応じて調整が必要です。

注意点と限界

t-SNEは計算コストが高く(O(n²))、大規模データには不向きです。結果が確率的で再現性が低い、グローバルな構造を保存しにくいなどの限界があります。これらの問題を改善したUMAPが近年注目されています。