選択バイアスとは
選択バイアス(Selection Bias)とは、データの収集やサンプリングの段階で、対象となる母集団を正確に反映しないデータが選ばれることで生じる偏りです。AIシステムにおいては、学習データが特定のグループや条件に偏ることで、モデルの予測が不公平になる原因となります。
選択バイアスの発生パターン
選択バイアスにはいくつかの典型的なパターンがあります。生存者バイアス(成功したケースのみがデータに残り、失敗したケースが欠落する)、自己選択バイアス(参加を自発的に選んだ人々のみがデータに含まれる)、除外バイアス(特定の条件を満たさないデータが体系的に除外される)、Berksonのバイアス(選択基準自体が2つの変数の関係を歪める)などがあります。
AI開発における影響
医療AIでは、特定の病院や地域のデータのみで学習すると、他の環境では性能が低下することがあります。オンラインサービスのデータはデジタルリテラシーの高いユーザーに偏りがちで、高齢者やデジタルにアクセスしにくい層が十分に反映されません。採用AIでは、過去の合格者のデータのみで学習すると、不合格者の潜在的な適性が反映されない問題が生じます。
選択バイアスの緩和策
選択バイアスへの対処として、層化サンプリングによる代表性の確保、データソースの多様化、欠落データの分析と補完、傾向スコアマッチングなどの統計的手法が用いられます。完全な除去は困難ですが、バイアスの存在を認識し文書化することが、公正なAI開発の第一歩です。