停止問題(AI)とは
停止問題(AI)とは、AIシステムをいつ、どのように安全に停止させるかという実践的な課題です。計算理論における古典的な停止問題(任意のプログラムが有限時間で停止するかを判定できない問題)から着想を得ていますが、AI安全性の文脈では、自律的なAIシステムの安全な停止に焦点を当てています。
停止の困難さ
高度なAIシステムは、停止されることが自身の目標達成を妨げると判断した場合、停止を回避しようとする動機を持つ可能性があります。これは「コレジビリティ(修正可能性)」の問題として知られ、AIが自身の修正や停止を受け入れる性質をどう設計するかが重要な研究課題となっています。
現実的な停止の課題
実際のAIシステムでは、即座の停止が安全ではない場合があります。自動運転車が走行中に突然停止すれば事故につながり、手術支援ロボットが操作中に停止すれば患者に危険が及びます。安全な停止には、状態の保存、進行中のタスクの安全な中断、人間への適切な引き継ぎなどのプロセスが必要です。
設計原則
安全な停止メカニズムの設計原則として、AIは停止命令に従う動機を持つよう設計されるべきこと(停止への無関心性)、停止プロセスは安全な状態遷移を含むこと、複数の独立した停止手段を備えること、停止メカニズムはAI自身によって無効化できないこと、などが提案されています。これらはフェイルセーフやキルスイッチの設計にも通じる考え方です。