AlphaGoとは
AlphaGo(アルファ碁)とは、DeepMindが開発した囲碁AIプログラムです。2016年にプロ棋士のイ・セドル九段を4勝1敗で破り、AIが人間のトッププレイヤーを上回ったことで世界に衝撃を与えました。深層学習と強化学習、モンテカルロ木探索を組み合わせた画期的なシステムです。
AlphaGoの技術
AlphaGoは2つのニューラルネットワークを使用します。Policy Network(方策ネットワーク)は次の着手の確率を予測し、Value Network(価値ネットワーク)は現在の局面の勝率を評価します。学習はまず人間の棋譜で教師あり学習を行い、その後自己対戦による強化学習で方策を改善しました。
モンテカルロ木探索との統合
実際の対局では、Policy Networkで有望な手を絞り込み、Value Networkとロールアウト(ランダムシミュレーション)で局面を評価するモンテカルロ木探索(MCTS)を使用します。これにより膨大な探索空間を効率的に探索します。
AlphaGoの歴史的意義
囲碁は盤面の複雑さからAIにとって最大の難関とされていましたが、AlphaGoはこれを克服しました。後継のAlphaGo Zeroは人間の棋譜を一切使わず自己対戦のみで学習し、さらにAlphaZeroへと発展してチェスや将棋でも超人的な性能を達成しました。