AlphaZero

AlphaZero

AlphaZeroとは

AlphaZero(アルファゼロ)とは、DeepMindが2017年に発表した汎用的なゲームAIプログラムです。囲碁、チェス、将棋の3つのゲームで、それぞれ人間のチャンピオンレベルの既存AIを打ち破りました。ゲームのルール以外の知識を一切使わず、ゼロから自己対戦のみで学習する点が最大の特徴です。

AlphaGoとの違い

AlphaGoが人間の棋譜による教師あり学習を初期段階で必要としたのに対し、AlphaZeroは完全にゼロから(タブラ・ラサ)自己対戦のみで学習します。また、AlphaGoが囲碁専用だったのに対し、AlphaZeroは単一のアルゴリズムで複数のゲームに対応する汎用的なフレームワークです。

アルゴリズムの仕組み

AlphaZeroは方策と価値を同時に出力する単一のニューラルネットワークと、モンテカルロ木探索(MCTS)を組み合わせています。自己対戦でゲームをプレイし、MCTSの探索結果を方策ネットワークの教師信号として使い、勝敗結果を価値ネットワークの教師信号として使います。

汎用性と影響

AlphaZeroは「ドメイン知識なしでも超人的な性能に到達できる」ことを示し、AI研究全体に大きなインパクトを与えました。その後のMuZeroはゲームのルールすら不要とする方向に発展し、さらに汎用的なアルゴリズムへと進化しています。