VAEとは
VAE(Variational Autoencoder、変分オートエンコーダー)は、2013年にKingmaとWellingによって提案された生成モデルです。オートエンコーダーの構造に確率的な枠組みを導入し、潜在空間に確率分布を仮定することで、新しいデータの生成と潜在表現の学習を同時に実現します。ベイズ推論の変分推論手法を用いるため「変分」という名称がついています。
VAEの構造と学習
VAEはエンコーダーとデコーダーで構成されます。エンコーダーは入力データを潜在空間の確率分布(通常は正規分布)のパラメータ(平均と分散)に変換します。デコーダーは潜在空間からサンプリングされたベクトルからデータを再構成します。学習は再構成誤差とKLダイバージェンスの和を最小化することで行われ、再構成精度と潜在分布の正則化のバランスを取ります。
再パラメータ化トリック
VAEの学習には「再パラメータ化トリック」が不可欠です。サンプリング操作は微分不可能であるため、そのままでは誤差逆伝播が行えません。この問題を、標準正規分布からサンプリングしたノイズεを用いてz = μ + σ * εと表現し直すことで解決します。これにより、確率的なサンプリングを含むモデルでもエンドツーエンドの学習が可能になります。
VAEの応用と発展
VAEは画像生成、テキスト生成、異常検知、半教師あり学習など、幅広い分野で活用されています。Stable DiffusionなどのLatent Diffusion Modelでは、画像をVAEで潜在空間に圧縮してから拡散処理を行うことで、計算効率を大幅に向上させています。VQ-VAE(ベクトル量子化VAE)やβ-VAEなどの発展形も研究されています。