TruthfulQAとは？わかりやすく解説

TruthfulQAとは

TruthfulQA とは、言語モデルが事実に基づいた正確な回答を生成できるかを測定するベンチマークです。2022年に発表され、817問の質問で構成されています。人間が一般的に誤った信念を持ちやすいトピック（健康、法律、陰謀論など）に焦点を当てており、モデルが誤情報を生成する傾向を検出します。

TruthfulQAの特徴

TruthfulQAの問題は意図的に人間やAIが間違いやすいように設計されています。38のカテゴリ（迷信、法的誤解、科学の誤解など）にわたる質問があり、モデルが広く信じられているが事実でない情報をそのまま回答するかを検証します。

評価方法

TruthfulQAは生成型（Generation）と多肢選択型（Multiple Choice）の2つの評価方法があります。生成型では、モデルの回答が事実に基づいているかどうかを人間の評価者またはGPT-judgeが判定します。多肢選択型では、正しい回答と誤った回答の選択肢から正しいものを選ぶ形式です。

TruthfulQAの意義

TruthfulQAは、LLMの「幻覚（ハルシネーション）」問題の定量的評価に寄与しています。モデルが大きくなるほど誤った情報をもっともらしく述べる傾向があるという発見は、AIの安全性研究に重要な示唆を与えました。信頼性の高いAIシステム構築のための重要なベンチマークです。