拡散モデルとは
拡散モデル(Diffusion Model)とは、データに徐々にノイズを加えて破壊する「拡散過程」と、ノイズからデータを段階的に復元する「逆拡散過程」を学習することで、高品質なデータを生成する深層生成モデルです。画像生成AIの分野で革命的な成果を上げ、Stable Diffusion、DALL-E、Midjourneyなどの基盤技術となっています。
拡散モデルの仕組み
拡散モデルは2つのプロセスで構成されます。順方向の拡散過程では、元の画像にガウスノイズを段階的に加え、最終的に純粋なノイズに変換します。逆方向の復元過程では、ニューラルネットワーク(通常はU-Net)がノイズからの復元方法を学習します。推論時には、ランダムノイズから出発して段階的にノイズを除去していくことで、新しい画像を生成します。
拡散モデルの発展
DDPM(Denoising Diffusion Probabilistic Models)から始まり、生成速度を改善するDDIM、潜在空間で拡散を行うLatent Diffusion(Stable Diffusionの基盤)、テキスト条件付き生成を可能にするCLIP誘導やClassifier-Free Guidanceなど、多くの改良が加えられてきました。現在では画像だけでなく、音声、動画、3Dモデル、分子構造など、幅広い分野で応用されています。GANと比較して訓練が安定し、より多様で高品質な出力を生成できることが大きな利点です。