クラウドソーシング(アノテーション)とは
クラウドソーシング(アノテーション)とは、インターネットを通じて不特定多数の作業者にアノテーションタスクを依頼し、大量のラベル付きデータを効率的に作成する手法のことです。Amazon Mechanical Turk(MTurk)やCrowdFlower(現Appen)などのプラットフォームが代表的です。個々の作業は比較的単純で、短時間で完了するマイクロタスクとして設計されることが一般的です。
クラウドソーシングの利点と課題
クラウドソーシングの最大の利点は、短期間で大量のアノテーションデータを取得できることです。数千〜数万件のデータに対するラベル付けを、数日〜数週間で完了できます。コスト面でも、専門家を雇用するよりも安価に実施できます。一方で、品質のばらつき、スパム回答の混入、作業者の専門知識不足などの課題があります。また、作業者への適切な報酬の支払いや労働条件に関する倫理的な議論もあります。
品質管理の手法
クラウドソーシングでの品質確保のために、様々な手法が用いられます。冗長アノテーション(同一データを複数人がラベル付けし多数決)、ゴールドスタンダード問題(正解がわかっている問題を混ぜて作業者の精度を監視)、資格テスト(本タスク前に精度テストを実施)、段階的承認(初期は少量のタスクで品質を確認)などです。これらを組み合わせることで、クラウドソーシングでも高品質なアノテーションデータの作成が可能になります。