画像認識

Image Recognition

AIの応用事例重要度：高

概要

画像認識（Image Recognition）とは、デジタル画像や映像から意味のある情報を抽出し、その内容を理解するAI技術の総称です。物体の識別、位置の特定、シーンの理解など多様なタスクを含みます。

2012年のILSVRC（ImageNet Large Scale Visual Recognition Challenge）において、CNN（畳み込みニューラルネットワーク）を用いたAlexNetが従来手法を大きく上回る精度を達成し、第3次AIブームの火付け役となりました。以降、画像認識はディープラーニングの最も成功した応用分野のひとつとして発展を続けています。

詳細解説

ILSVRC（ImageNet大規模画像認識チャレンジ）

ILSVRC（ImageNet Large Scale Visual Recognition Challenge）は、大規模画像データセット「ImageNet」を用いた画像認識コンテストです。2010年から2017年まで毎年開催され、画像認識技術の進歩を牽引しました。

2012年大会でトロント大学のジェフリー・ヒントン研究室のAlexNetが、エラー率を大幅に低減させて優勝しました。これ以降、CNN（畳み込みニューラルネットワーク）を用いたディープラーニング手法が主流となり、VGGNet（2014年）、GoogLeNet（2014年）、ResNet（2015年）など、次々と精度を向上させるモデルが登場しました。ResNetは人間の認識精度を上回る成果を達成し、152層もの深いネットワークを実現するスキップ接続（残差接続）を導入しました。

画像認識の主要タスク

画像分類（Image Classification）

画像全体に対して、何が写っているかを分類するタスクです。「犬」「猫」「自動車」など、画像にラベルを付与します。CNNが最も得意とする基本的なタスクであり、ILSVRCの主要競技でもありました。

物体検出（Object Detection）

画像内の複数の物体の位置（バウンディングボックス）とクラス（種類）を同時に検出するタスクです。自動運転における歩行者・車両検出や、監視カメラにおける不審者検知などに応用されます。代表的な手法にR-CNN系列、YOLO（You Only Look Once）、SSD（Single Shot MultiBox Detector）があります。YOLOはリアルタイム検出が可能な手法として広く知られています。

セマンティックセグメンテーション

画像の各ピクセルに対してクラスラベルを割り当てるタスクです。画像を「道路」「歩道」「建物」「空」など、意味のある領域ごとに塗り分けます。自動運転における走行可能領域の認識や、医療画像における病変領域の特定に利用されます。FCN（Fully Convolutional Network）やU-Netなどのアーキテクチャが代表的です。

インスタンスセグメンテーション

セマンティックセグメンテーションに加えて、同じクラスの個々の物体（インスタンス）を区別するタスクです。例えば、画像内の複数の人物をそれぞれ個別に識別できます。Mask R-CNNが代表的な手法です。

顔認識

画像や映像から人物の顔を検出し、個人を識別する技術です。スマートフォンのロック解除、入退室管理、犯罪捜査など幅広く利用されていますが、プライバシーの問題やデータバイアスの問題（人種・性別による精度差）も指摘されており、倫理的な議論の対象となっています。

OCR（光学文字認識）

OCR（Optical Character Recognition）は、画像中の文字を認識してデジタルテキストに変換する技術です。名刺のデータ化、書類のデジタル化、ナンバープレートの読み取りなど、古くから実用化されている画像認識技術のひとつです。ディープラーニングの導入により、手書き文字の認識精度も大幅に向上しました。

医療画像解析

X線、CT、MRI、内視鏡などの医療画像からAIが病変を検出・分類する応用分野です。胸部X線からの肺がん検出、眼底画像からの糖尿病性網膜症の検出、病理画像からのがん細胞の識別など、専門医の診断を支援するシステムが実用化されています。

歴史・背景

画像認識の研究は1960年代に始まり、当初はエッジ検出やテンプレートマッチングなどの手法が用いられていました。1980年代にはSIFT（Scale-Invariant Feature Transform）やHOG（Histogram of Oriented Gradients）などの特徴量記述子が開発され、手動で設計した特徴量とSVM（サポートベクターマシン）を組み合わせる手法が主流でした。

1998年にヤン・ルカンが手書き数字認識のためのLeNet-5を発表し、CNNの有効性を示しました。しかし、当時は計算資源の制約から大規模な画像認識への適用は困難でした。

2012年のAlexNetの成功を機にCNNベースの画像認識が爆発的に普及し、以降はGPUの高性能化と大規模データセットの整備により、認識精度が急速に向上しました。近年ではVision Transformer（ViT）のように、Transformerアーキテクチャを画像認識に適用する手法も登場しています。

具体的な事例

自動運転：車載カメラの映像から歩行者、車両、信号、道路標識を検出し、走行判断に利用します。
製造業の外観検査：製品の表面の傷や欠陥を自動検出し、品質管理を効率化します。
農業：ドローン画像から作物の生育状況を判定したり、病害虫の早期発見に活用されています。
セキュリティ：監視カメラの映像をリアルタイム解析し、不審な行動や危険物を検出します。
小売業：無人レジ（Amazon Goなど）での商品認識に利用されています。

G検定での出題ポイント

ILSVRCの意義と2012年のAlexNetの成功が第3次AIブームのきっかけとなったこと
画像分類・物体検出・セグメンテーションの各タスクの違い
代表的なCNNモデル（AlexNet、VGGNet、GoogLeNet、ResNet）の特徴
YOLO、SSDなどの物体検出手法
転移学習とファインチューニングの画像認識への応用
顔認識における倫理的課題

試験対策のポイント

2012年ILSVRCでAlexNetが優勝 → CNN（ディープラーニング）による画像認識の優位性が実証された転機
画像分類は「画像全体の分類」、物体検出は「位置とクラスの同時検出」、セグメンテーションは「ピクセル単位の分類」と区別する
ResNetは「スキップ接続（残差接続）」により超深層ネットワークを実現した手法
YOLOはリアルタイム物体検出手法であり、自動運転や監視カメラに適用される
Vision Transformer（ViT）はTransformerを画像認識に適用した手法として近年注目されている