データシート

Datasheet

データシートとは

データシート(Datasheet for Datasets)とは、Timnit Gebruらが2021年に提案した、機械学習用データセットに付随すべき標準的なドキュメントのフォーマットのことです。電子部品に付属するデータシートになぞらえて、データセットの「仕様書」として機能し、データの作成背景、収集方法、利用条件などを体系的に記述します。

データシートの質問項目

データシートは7つのカテゴリの質問で構成されています。動機(Motivation)ではデータセット作成の目的と資金源を記述します。構成(Composition)ではデータの内容、形式、ラベル、機密情報の有無を記述します。収集プロセス(Collection Process)ではデータの取得方法、同意の取得方法を記述します。前処理(Preprocessing)ではクリーニングやラベリングの手順を記述します。利用(Uses)では推奨・非推奨の用途を記述します。配布(Distribution)ではライセンスと配布方法を記述します。メンテナンス(Maintenance)では更新計画と連絡先を記述します。

データシートの意義と課題

データシートは、データセットの作成者と利用者の間の情報非対称性を解消し、データの責任ある利用を促進します。しかし、すべての項目を詳細に記述するには相当な労力が必要であり、特に大規模なWebスクレイピングデータでは情報の把握自体が困難な場合もあります。標準フォーマットの普及により、データの透明性が向上し、より信頼性の高いAIシステムの構築に貢献することが期待されています。