半教師あり学習

Semi-supervised Learning

半教師あり学習(Semi-supervised Learning)とは、少量のラベル付きデータと大量のラベルなしデータを組み合わせてモデルを訓練する機械学習の手法です。教師あり学習と教師なし学習の中間に位置する手法であり、ラベル付けコストを抑えながら高い精度を目指します。

なぜ半教師あり学習が必要か

実世界のデータでは、大量のデータを収集することは比較的容易でも、すべてに正確なラベルを付与するのは非常にコストがかかります。例えば、医療画像の診断ラベルは専門医でなければ付けられず、膨大な時間と費用が必要です。半教師あり学習は、この「ラベル付きデータが少ない」という現実的な制約に対処するための手法です。

代表的な手法

代表的な手法には、自己学習(Self-training)、共学習(Co-training)、グラフベース手法、生成モデルベース手法などがあります。近年では、MixMatch、FixMatch、SimCLRなどの手法が深層学習と組み合わされ、高い性能を達成しています。

活用例

Web ページの分類、音声認識、医療画像診断、自然言語処理など、ラベル付きデータの取得コストが高い分野で広く利用されています。