データ拡張（CV）とは？わかりやすく解説

データ拡張（CV）とは

データ拡張（Data Augmentation）とは、既存の学習データに変換処理を加えて、見かけ上のデータ量を増やす手法です。コンピュータビジョンにおいては、限られた画像データからモデルの汎化性能を高めるための重要な技術です。過学習を防ぎ、様々な条件下での認識精度を向上させます。

主要なデータ拡張手法

基本的なデータ拡張には、水平反転、回転、拡大縮小、切り抜き（Random Crop）、色調変換（明るさ・コントラスト・彩度・色相の変更）、ガウシアンノイズの追加などがあります。より高度な手法としては、Cutout（画像の一部をマスク）、Mixup（2枚の画像を重ね合わせ）、CutMix（画像の一部を別画像で置換）、AutoAugment（最適な拡張ポリシーを自動探索）、RandAugment（ランダムに拡張を組み合わせ）などがあります。物体検出ではモザイク拡張やColor Jitterも効果的です。

データ拡張の効果と注意点

データ拡張はモデルのロバスト性を高め、実世界の多様な条件（照明変化、視点変化、遮蔽など）への対応力を向上させます。ただし、不適切なデータ拡張は逆効果となる場合もあります。例えば、文字認識で上下反転を適用すると意味が変わってしまいます。タスクの特性を理解した上で、適切なデータ拡張戦略を設計することが重要です。