人間評価とは
人間評価(Human Evaluation)とは、人間の評価者がモデルの出力を直接判断・採点する評価方法です。自然言語生成、画像生成、音声合成などのタスクにおいて、自動評価指標では捉えきれない品質の側面(流暢さ、有用性、安全性など)を評価するための最も信頼性の高い方法とされています。
人間評価の方法
人間評価には複数の方法があります。絶対評価は各出力を独立にスコアリングし、相対評価は複数のモデルの出力を比較してランキングします。リッカート尺度(1-5点など)による評価、A/Bテスト、ペアワイズ比較などが代表的な方法です。Eloレーティングを用いた大規模な比較評価も近年注目されています。
人間評価の課題
人間評価にはコストと時間がかかること、評価者間の一致度(Inter-Annotator Agreement)にばらつきがあること、スケーラビリティに限界があることなどの課題があります。評価基準の明確化、評価者の訓練、複数の評価者による評価とその合意形成が、信頼性の高い評価には不可欠です。
LLM-as-a-Judgeとの関係
近年では、GPT-4やClaudeなどの大規模言語モデルを評価者として使用するLLM-as-a-Judge手法が普及しています。人間評価との高い相関が報告されており、コストとスケーラビリティの問題を軽減できますが、バイアスの問題もあり、人間評価の完全な代替にはなりません。