ARCとは
ARC(AI2 Reasoning Challenge)とは、Allen Institute for AI(AI2)が開発した科学的推論能力を測定するベンチマークです。小学校から中学校レベルの科学の多肢選択問題7,787問で構成され、単純な知識検索では解けない推論を必要とする問題が含まれています。
ARCの構成
ARCはARC-Easy(簡単なセット)とARC-Challenge(難しいセット)の2つに分かれています。ARC-Challengeは情報検索ベースのアルゴリズムでは正しく回答できなかった問題のみで構成されており、より高度な推論能力を測定します。ベンチマークとしてはARC-Challengeのスコアが主に報告されます。
ARCの評価対象
ARCは物理、化学、生物、地学などの科学分野の知識に加え、仮説検証、実験計画、因果推論などの科学的思考力を測定します。単に事実を知っているだけでなく、科学的な原理を応用して未知の問題に対処する能力が試されます。
ARCの意義と現状
ARCは言語モデルの推論能力評価の標準的なベンチマークの一つとして、MMLUやHellaSwagとともに広く使われています。最新のLLMではARC-Challengeで95%以上のスコアを達成するモデルも出現しており、より難しい科学推論ベンチマークの必要性が議論されています。