潜在空間とは
潜在空間(Latent Space)とは、データの本質的な特徴を圧縮・表現する低次元の空間のことです。生成モデルやオートエンコーダーにおいて、高次元のデータ(画像、テキストなど)を意味のある低次元表現に変換する中間的な空間として機能します。潜在空間の各次元はデータの何らかの属性に対応していると考えられます。
潜在空間の構造と特性
良い潜在空間では、意味的に類似したデータが近くに配置され、潜在空間上での連続的な移動が生成データの滑らかな変化に対応します。例えば、顔画像の潜在空間では、笑顔の度合いや年齢といった属性が特定の方向に対応していることがあります。この構造により、潜在空間上でのベクトル演算による意味のあるデータ操作が可能になります。
潜在空間の学習
VAEでは、潜在空間が正規分布に従うように正則化されるため、連続的で滑らかな潜在空間が得られます。GANでは潜在空間の構造が明示的に制約されませんが、学習を通じて自然に構造化されます。VQ-VAEでは離散的な潜在空間を使用し、コードブックの各エントリが特定の特徴パターンに対応します。
潜在空間の活用
潜在空間はデータの生成、補間、属性操作、異常検知など、さまざまな目的で活用されます。Stable Diffusionなどのモデルでは潜在空間上で拡散処理を行うことで計算効率を改善しています。また、潜在空間の表現学習(Representation Learning)は、転移学習や少数ショット学習の基盤技術としても重要です。