ライセンス(データ)とは
データライセンスとは、データセットの利用条件、権利、制約を法的に定めた文書のことです。データの作成者が利用者に対して、どのような目的でどのように利用できるかを明示します。AI開発では、学習データのライセンスがモデルの利用範囲や配布条件を規定するため、コンプライアンス上の重要なガバナンス要素です。
主なデータライセンスの種類
オープンデータ向けには、Creative Commons(CC)ライセンスが広く使用されています。CC0(パブリックドメイン)、CC BY(帰属表示)、CC BY-SA(帰属表示-継承)、CC BY-NC(帰属表示-非営利)などのバリエーションがあります。ソフトウェア向けのMIT、Apache 2.0、GPLなどがデータに適用されることもあります。AI固有のライセンスとして、RAIL(Responsible AI License)やCDLA(Community Data License Agreement)なども登場しています。
AI開発におけるライセンス管理
AI開発では、複数のデータソースを組み合わせて使用することが一般的であり、各データのライセンスの互換性を確認する必要があります。例えば、NC(非営利)条件のデータを含む学習データで構築したモデルを商用利用できるかといった問題が生じます。データガバナンスの実務では、利用するすべてのデータセットのライセンスを棚卸しし、ライセンス条件を遵守していることを確認するプロセスを確立することが重要です。ライセンス情報はデータカタログやデータカードに明記すべき基本情報です。