ラベリングとは
ラベリングとは、機械学習の教師あり学習においてデータに正解ラベル(分類カテゴリや数値など)を割り当てる作業のことです。アノテーションとほぼ同義で使われることが多いですが、ラベリングは特に分類タスクにおけるカテゴリ割り当てを指すことが一般的です。例えば、メールを「スパム」と「非スパム」に分類する、画像を「犬」「猫」「鳥」などのカテゴリに分ける作業がラベリングに該当します。
ラベリングの手法
手動ラベリングは人間が一つ一つのデータを確認してラベルを付与する方法で、高い精度が得られますが時間とコストがかかります。半自動ラベリングでは、事前学習済みモデルがラベル候補を提示し、人間が確認・修正します。プログラマティックラベリング(Snorkel等)では、複数のヒューリスティックルールやラベリング関数を組み合わせて、大量のデータにノイジーなラベルを自動生成します。自己教師あり学習ではラベルを必要としない手法もありますが、最終的なファインチューニングにはラベル付きデータが必要となることが多いです。
ラベリングの品質とバイアス
ラベリングの品質はモデルの性能を直接左右します。複数のアノテーター間での一致率(Inter-Annotator Agreement)を測定し、不一致がある場合は基準を見直すことが重要です。また、ラベリングにはアノテーター自身のバイアスが反映されやすいため、多様なバックグラウンドを持つアノテーターの確保や、バイアス検出の仕組みの導入が推奨されます。