Constitutional AI

Constitutional AI

Constitutional AIとは

Constitutional AI(憲法AI)とは、Anthropic社が提案したAIの安全性調整手法です。人間が定めた「憲法」(原則のセット)に基づいてAI自身が出力を評価・改善する仕組みにより、RLHFで必要な大量の人間のフィードバックへの依存を軽減しながら、安全で有益なAIモデルを実現することを目指します。

仕組みと学習プロセス

Constitutional AIは2段階のプロセスで動作します。第1段階(SL段階)では、モデルに有害な質問に回答させた後、憲法の原則に照らして自己批判を行わせ、改善された回答を生成させます。第2段階(RL段階)では、人間の代わりにAIモデルが憲法に基づいて出力を評価し、その評価データでRLHFと同様の強化学習を行います(RLAIF:AI Feedback による強化学習)。

憲法の原則

Constitutional AIの「憲法」は、有害性の回避、正直さ、有用性などに関する明文化された原則の集まりです。例えば「暴力を促進する回答を避けること」「差別的な表現を使わないこと」「不確実な場合はその旨を明示すること」などの原則が含まれます。これらの原則は透明性が高く、容易に監査・修正が可能です。

RLHFとの比較と意義

RLHFが人間の評価者の暗黙的な判断基準に依存するのに対し、Constitutional AIは明示的な原則に基づいて安全性を定義します。これにより、安全性基準の透明性と再現性が向上し、評価者の主観やバイアスの影響を軽減できます。Constitutional AIの概念は、AI安全性における重要なパラダイムとして広く認知されています。