評価指標(Evaluation Metrics)

Evaluation Metrics / Confusion Matrix / Precision / Recall / F1-Score

機械学習 重要度:高

概要

評価指標(Evaluation Metrics)とは、機械学習モデルの予測性能を定量的に測定するための指標です。モデルの良し悪しを客観的に判断し、モデルの改善やモデル間の比較を行うために不可欠な概念です。

分類タスクでは、混同行列(Confusion Matrix)を基にした正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F1スコアなどの指標が広く使われます。回帰タスクでは、平均二乗誤差(MSE)、平均絶対誤差(MAE)、決定係数(R^2)などが用いられます。G検定では、特に混同行列の理解と各指標の計算方法が頻出テーマです。

詳細解説

混同行列(Confusion Matrix)

混同行列は、分類モデルの予測結果を4つのカテゴリに整理した表です。二値分類の場合、以下の4つの要素で構成されます。

予測:陽性(Positive)予測:陰性(Negative)
実際:陽性TP(True Positive / 真陽性)FN(False Negative / 偽陰性)
実際:陰性FP(False Positive / 偽陽性)TN(True Negative / 真陰性)
  • TP(True Positive):実際に陽性であり、陽性と正しく予測した数
  • FP(False Positive):実際は陰性だが、陽性と誤って予測した数(第1種の誤り)
  • FN(False Negative):実際は陽性だが、陰性と誤って予測した数(第2種の誤り)
  • TN(True Negative):実際に陰性であり、陰性と正しく予測した数

正解率(Accuracy)

正解率は、全予測のうち正しく予測できた割合です。

Accuracy = (TP + TN) / (TP + FP + FN + TN)

正解率はシンプルで直感的ですが、データが不均衡な場合(例えば陽性が1%、陰性が99%)には、すべて陰性と予測するだけで正解率99%となってしまうため、不均衡データでは適切な指標ではありません。

適合率(Precision / 精度)

適合率は、陽性と予測したもののうち、実際に陽性であった割合です。

Precision = TP / (TP + FP)

適合率が重要になるのは、偽陽性(FP)のコストが高い場合です。例えば、スパムメール判定では、正常なメールをスパムと誤判定する(FP)と重要なメールを見逃してしまうため、適合率を高くすることが求められます。

再現率(Recall / 感度 / Sensitivity)

再現率は、実際に陽性であるもののうち、陽性と正しく予測できた割合です。

Recall = TP / (TP + FN)

再現率が重要になるのは、偽陰性(FN)のコストが高い場合です。例えば、がんの検診では、がん患者を見逃す(FN)と命に関わるため、再現率を高くすることが最優先されます。

適合率と再現率のトレードオフ

適合率と再現率はトレードオフの関係にあります。分類の閾値を下げると、陽性と判定されるデータが増えるため再現率は上がりますが、同時に偽陽性も増えるため適合率は下がります。逆に閾値を上げると、適合率は上がりますが再現率は下がります。このトレードオフを考慮して、問題の特性に応じた適切なバランスを取ることが重要です。

F1スコア(F1-Score / F値)

F1スコアは、適合率と再現率の調和平均で、両者のバランスを1つの数値で表した指標です。

F1 = 2 × (Precision × Recall) / (Precision + Recall)

F1スコアは0から1の値を取り、1に近いほど良い性能を意味します。適合率と再現率のどちらかが極端に低いと、F1スコアも低くなるため、両方の指標をバランスよく高めることが求められます。不均衡データの分類において、正解率の代わりに使われることが多い指標です。

AUC-ROC

ROC曲線(Receiver Operating Characteristic Curve)は、分類の閾値を変化させたときの真陽性率(TPR = Recall)と偽陽性率(FPR = FP/(FP+TN))の関係をプロットした曲線です。AUC(Area Under the Curve)は、ROC曲線の下の面積であり、モデルの総合的な分類性能を表します。

AUCは0.5(ランダム予測)から1.0(完全な予測)の値を取り、値が1に近いほどモデルの性能が高いことを意味します。AUC-ROCは閾値に依存しない評価指標であるため、モデル全体の性能比較に適しています。

回帰タスクの評価指標

  • 平均二乗誤差(MSE):予測値と実測値の差の二乗の平均。大きな誤差にペナルティが大きい。
  • 平均絶対誤差(MAE):予測値と実測値の差の絶対値の平均。外れ値に頑健。
  • 決定係数(R^2):モデルがデータの分散をどれだけ説明できているかの指標。1に近いほど良い。

歴史・背景

混同行列の概念は、統計学の仮説検定における第1種の誤り(偽陽性)と第2種の誤り(偽陰性)の区別に遡ります。ROC曲線は、第二次世界大戦中にレーダー信号の検出性能を評価するために開発されました。1960年代以降、医療診断や信号検出の分野で広く使われるようになり、1990年代からは機械学習の分野でもモデル評価の標準的な手法として定着しました。

F1スコアは情報検索の分野で考案された指標で、検索結果の精度(Precision)と網羅性(Recall)のバランスを評価するために使われていました。現在では、機械学習全般の分類性能評価に広く活用されています。

具体的な事例

  • 医療診断:がん検診では再現率を重視。見逃し(FN)を最小化することが最優先です。適合率が多少低くても、疑わしいケースは精密検査に回す方が安全です。
  • スパムメール判定:適合率を重視。正常なメールをスパムと誤判定(FP)すると、重要なメールが読まれなくなる可能性があります。
  • 不正検知:クレジットカードの不正取引検知では、不正取引は全体の0.1%程度と非常に不均衡。正解率ではなくF1スコアやAUC-ROCで評価します。
  • 自動運転:歩行者検知では再現率が最重要。歩行者を見逃す(FN)と重大な事故につながるため、見逃しゼロを目指します。
  • 製造業の品質検査:不良品検出では、不良品の見逃し(FN)と正常品の過剰排除(FP)のバランスを、ビジネス要件に応じて調整します。

G検定での出題ポイント

  • 混同行列の4つの要素(TP/FP/FN/TN)を正確に理解し、具体例で説明できること
  • 正解率・適合率・再現率・F1スコアの計算式を覚え、数値から計算できること
  • 不均衡データでは正解率が不適切であり、適合率・再現率・F1スコアが重要であることを理解する
  • 適合率と再現率のトレードオフの関係を説明できること
  • AUC-ROCの意味(0.5がランダム、1.0が完全な分類)を知っておく
試験対策のポイント
  • 混同行列:TP(正しく陽性)、FP(誤って陽性)、FN(誤って陰性)、TN(正しく陰性)
  • 適合率 = TP/(TP+FP):「陽性と予測した中で本当に陽性の割合」
  • 再現率 = TP/(TP+FN):「実際の陽性のうち正しく検出できた割合」
  • F1スコア = 2×Precision×Recall/(Precision+Recall):適合率と再現率の調和平均
  • 不均衡データでは正解率より F1スコアやAUC-ROCを使う