合成データとは
合成データ(Synthetic Data)とは、実際のデータから生成された統計的に類似する人工的なデータ、またはAIモデルによって生成されたデータのことです。プライバシー保護、データ不足の解消、バイアスの軽減、コスト削減など多様な目的で活用が急拡大しています。
合成データの生成手法
統計的手法(分布に基づくサンプリング)、GAN(敵対的生成ネットワーク)、VAE(変分オートエンコーダー)、拡散モデル、LLMによるテキスト生成など、多様な手法が用いられます。近年ではLLMが高品質な訓練データを生成する「自己改善」的なアプローチも注目されています。
合成データの活用領域
自動運転のシミュレーションデータ、医療画像の拡張、金融の不正検出用データ、プライバシー保護が必要な個人データの代替、LLMの訓練データ拡張など、幅広い分野で活用されています。Gartnerは2030年までにAI訓練データの大半が合成データになると予測しています。
課題とリスク
合成データの品質評価の難しさ、「モデル崩壊」(合成データで訓練を繰り返すと品質が劣化する現象)、元データのバイアスが増幅されるリスクなどが課題として指摘されています。