モデル窃取(Model Stealing)とは？わかりやすく解説

モデル窃取とは

モデル窃取とは、攻撃者がターゲットとなるAIモデルの入出力を観察することで、そのモデルの機能を複製（クローン）しようとする攻撃手法です。モデルの知的財産の侵害であるだけでなく、複製モデルを用いたさらなる攻撃の足がかりとなる可能性があります。

攻撃の動機と手法

モデル窃取の動機は多様です。競合他社が高コストの訓練を回避して類似モデルを構築する、セキュリティ研究者がモデルの脆弱性を調査する、攻撃者がホワイトボックス攻撃を準備するためにモデルの近似を得る、などが考えられます。手法としては、APIに大量のクエリを送信して入出力ペアを収集し、それを教師データとして代理モデル（サロゲートモデル）を訓練する方法が一般的です。

防御策

モデル窃取への防御には、APIレート制限の適用、クエリパターンの監視・異常検出、出力情報の制限（確信度スコアの非公開化）、モデルウォーターマーキング（モデルの出力に検出可能な特徴を埋め込み著作権を主張する技術）が有効です。また、法的保護として、利用規約でのモデル複製の禁止や知的財産権の主張も重要な対策の一つです。

モデル窃取とは

攻撃の動機と手法

防御策

関連用語