PII(個人識別情報)

Personally Identifiable Information

PII(個人識別情報)とは

PII(Personally Identifiable Information:個人識別情報)とは、特定の個人を識別、連絡、位置特定できる情報、または他の情報と組み合わせて個人を識別できる情報の総称です。氏名、住所、メールアドレス、電話番号、社会保障番号、パスポート番号、IPアドレス、生体情報などが含まれます。AI開発やデータ管理において、PIIの適切な取り扱いはプライバシー保護の最も基本的な要件です。

PIIの分類と識別

PIIは直接識別情報と間接識別情報に分類されます。直接識別情報は、それ単体で個人を特定できる情報(氏名、社会保障番号、顔写真等)です。間接識別情報は、他の情報と組み合わせることで個人を特定できる情報(生年月日、郵便番号、職業等)です。AIデータにおけるPIIの検出は、正規表現によるパターンマッチング、機械学習ベースの固有表現認識(NER)、辞書ベースのマッチングなどの手法で自動化されています。

AI開発におけるPII管理

AI開発では、学習データにPIIが含まれるリスクに常に注意する必要があります。特にWebスクレイピングで収集したテキストデータや、ユーザーが入力したデータには予期せずPIIが含まれている可能性があります。対策として、PII検出ツールによるスキャン、検出されたPIIの匿名化・マスキング、PIIの保存場所と利用範囲の管理、アクセス制御の実装が必要です。大規模言語モデルでは、学習データに含まれるPIIがモデルの出力として漏洩するリスク(メモリゼーション問題)もあり、特に慎重な管理が求められます。