VAE（変分オートエンコーダー）とは？わかりやすく解説

VAEとは

VAE（Variational Autoencoder、変分オートエンコーダー）は、2013年にKingmaとWellingによって提案された生成モデルです。オートエンコーダーの構造に確率的な枠組みを導入し、潜在空間に確率分布を仮定することで、新しいデータの生成と潜在表現の学習を同時に実現します。ベイズ推論の変分推論手法を用いるため「変分」という名称がついています。

VAEの構造と学習

VAEはエンコーダーとデコーダーで構成されます。エンコーダーは入力データを潜在空間の確率分布（通常は正規分布）のパラメータ（平均と分散）に変換します。デコーダーは潜在空間からサンプリングされたベクトルからデータを再構成します。学習は再構成誤差とKLダイバージェンスの和を最小化することで行われ、再構成精度と潜在分布の正則化のバランスを取ります。

再パラメータ化トリック

VAEの学習には「再パラメータ化トリック」が不可欠です。サンプリング操作は微分不可能であるため、そのままでは誤差逆伝播が行えません。この問題を、標準正規分布からサンプリングしたノイズεを用いてz = μ + σ * εと表現し直すことで解決します。これにより、確率的なサンプリングを含むモデルでもエンドツーエンドの学習が可能になります。

VAEの応用と発展

VAEは画像生成、テキスト生成、異常検知、半教師あり学習など、幅広い分野で活用されています。Stable DiffusionなどのLatent Diffusion Modelでは、画像をVAEで潜在空間に圧縮してから拡散処理を行うことで、計算効率を大幅に向上させています。VQ-VAE（ベクトル量子化VAE）やβ-VAEなどの発展形も研究されています。

VAEとは

VAEの構造と学習

再パラメータ化トリック

VAEの応用と発展

関連用語