GSM8K

Grade School Math 8K

GSM8Kとは

GSM8K(Grade School Math 8K)とは、言語モデルの数学的推論能力を評価するベンチマークです。2021年にOpenAIにより公開され、小学校レベルの算数の文章題8,500問で構成されています。問題を解くには2-8ステップの推論が必要であり、単純な知識の暗記ではなく段階的な推論能力を測定します。

GSM8Kの特徴

GSM8Kの問題は自然言語で記述された算数の文章題であり、四則演算を組み合わせた多段階の推論が必要です。例えば「AさんがBさんにリンゴを5個あげて、Cさんから3個もらった場合、何個残るか」のような問題です。数学的には高度ではありませんが、言語理解と論理的推論の組み合わせが試されます。

GSM8Kとチェーン・オブ・ソート

GSM8Kは、チェーン・オブ・ソート(Chain-of-Thought)推論の有効性を示す重要なベンチマークとなりました。段階的に推論を記述させることで、モデルの正答率が大幅に向上することがGSM8Kで実証されました。現在ではCoTプロンプティングの評価にも広く使われています。

GSM8Kの現状

最新の大規模言語モデルではGSM8Kの正答率が95%を超えるものもあり、このベンチマークの飽和が指摘されています。より高度な数学推論を測定するMATH、GSM-Hard、Minerva Mathなどの新しいベンチマークが開発されています。