DBSCAN(Density-Based Spatial Clustering of Applications with Noise)とは、データの密度に基づいてクラスタを形成する手法です。不規則な形状のクラスタを発見でき、ノイズ(外れ値)を自動的に検出できるのが特徴です。
コアポイント・ボーダーポイント・ノイズ
DBSCANはε(eps)半径内にMinPts個以上のデータ点を持つ点を「コアポイント」、コアポイントのε近傍内にある非コアポイントを「ボーダーポイント」、いずれにも属さない点を「ノイズ」として分類します。
利点
クラスタ数の事前指定が不要、任意の形状のクラスタを発見可能、外れ値を自動検出できるという3つの大きな利点があります。k-meansでは見つけられない三日月型やリング型のクラスタも正しく識別できます。
パラメータの設定
εとMinPtsの設定が結果に大きく影響します。k-距離グラフを用いたεの決定方法が一般的で、MinPtsは次元数+1以上が推奨されています。