能動学習(Active Learning)とは、モデル自身がラベル付けすべきデータを選択的に選び、人間のアノテーターに問い合わせる学習手法です。限られたラベル付けコストで最大の性能向上を目指す効率的なアプローチです。
能動学習の仕組み
初期の少量のラベル付きデータでモデルを学習し、ラベルなしデータの中からモデルが「最も不確実」なサンプルを選んでラベル付けを依頼します。新たにラベル付けされたデータを追加してモデルを再学習するサイクルを繰り返します。
サンプル選択戦略
不確実性サンプリング(モデルが最も予測に自信がないサンプル)、多様性サンプリング(データの多様性を最大化するサンプル)、期待値モデル変化(モデルへの影響が最大となるサンプル)などの戦略があります。
活用場面
医療画像のアノテーション、自然言語処理のラベル付け、工業検査など、専門家によるラベル付けが高コストな分野で特に有効です。