画像分類とは
画像分類(Image Classification)とは、入力画像が事前に定義されたカテゴリのうちどれに属するかを判定するタスクです。コンピュータビジョンの中でも最も基本的なタスクであり、物体検出やセグメンテーションなど、より複雑なタスクの基盤となっています。
画像分類の発展
画像分類の歴史的転換点は、2012年のImageNet Large Scale Visual Recognition Challenge(ILSVRC)でAlexNetが圧倒的な成績を収めたことです。以降、VGGNet、GoogLeNet、ResNetなどのCNNアーキテクチャが次々と登場し、精度が向上しました。2020年代に入ると、Vision Transformer(ViT)がCNNに代わる有力なアーキテクチャとして注目を集めています。ViTは画像をパッチに分割し、Transformerで処理することで優れた精度を実現します。
画像分類の課題と応用
画像分類の実用化においては、学習データの偏り、ドメインシフト(学習環境と実運用環境の違い)、敵対的サンプルへの脆弱性などの課題があります。それでも、医療画像の診断支援、製品の品質検査、農作物の病害検出など、幅広い分野で実用化が進んでいます。転移学習を活用することで、少量のデータからでも高精度なモデルを構築できるようになっています。