深度推定

Depth Estimation

深度推定とは

深度推定(Depth Estimation)とは、画像から各ピクセルのカメラからの距離(深度)を推定する技術です。2D画像から3D情報を復元する基盤技術であり、単眼深度推定とステレオ深度推定の2つに大別されます。

深度推定の手法

単眼深度推定は1枚の画像だけから深度を推定する手法です。幾何学的な手がかり(テクスチャの粒度、遮蔽関係、既知の物体サイズなど)を学習して深度を予測します。MonoDepth、DPT(Dense Prediction Transformer)、MiDaSなどのモデルが代表的です。ステレオ深度推定は2台のカメラ(ステレオカメラ)で撮影した画像の視差(Disparity)から深度を計算します。PSMNet、AANetなどのディープラーニングモデルが高精度な視差推定を実現しています。自己教師あり学習を用いた手法も研究が進んでおり、深度の正解データなしでも学習が可能です。

深度推定の応用

深度推定は自動運転での障害物との距離計測、AR/VRでの仮想物体の配置、ロボットの環境認識と把持計画、スマートフォンのポートレートモード(背景ぼかし)、ドローンの障害物回避、3D再構成など、多岐にわたる応用があります。LiDARなどの深度センサーとカメラの深度推定を融合するアプローチも活発に研究されています。