表現バイアスとは
表現バイアス(Representation Bias)とは、データセットにおいて特定のグループや属性が過剰に、または過少に代表されることで生じる偏りです。学習データの構成が対象とする母集団の実際の分布と異なる場合、モデルは過剰に代表されたグループに対して高い性能を示し、過少に代表されたグループに対して低い性能を示すことになります。
表現バイアスの発生原因
表現バイアスは、データ収集の地理的・文化的な偏り、インターネット上のデータの偏り(オンラインに参加しない層のデータが不足)、過去の不平等による特定グループのデータ不足、コストや技術的制約による特定条件下でのデータ収集の困難さなど、多くの要因から発生します。
表現バイアスの影響
顔認識技術では、訓練データに含まれる人種の比率が偏ると、特定の人種に対する認識精度が著しく低下します。音声認識では、特定のアクセントや方言の話者が少ないと、それらの話者に対する認識精度が低くなります。医療AIでは、特定の人種グループに対する臨床データが不足すると、そのグループへの診断精度が低下するリスクがあります。
表現バイアスの緩和
緩和策としては、意図的に多様なデータを収集すること、データ拡張によって少数グループのデータを増やすこと、層化サンプリングで各グループの代表性を確保すること、合成データを活用すること、そしてサブグループごとの性能評価を行うことが挙げられます。表現バイアスの存在を認識し、データの構成を透明化することが公平なAI開発の基盤です。