k-means法

k-Means Clustering

k-means法(k-Means Clustering)とは、データをk個のクラスタに分割するクラスタリングアルゴリズムです。シンプルで高速なため、最も広く使われているクラスタリング手法の一つです。

アルゴリズムの手順

①k個の初期中心点をランダムに配置→②各データ点を最も近い中心点のクラスタに割り当て→③各クラスタの平均値を新しい中心点とする→②③を中心点が収束するまで繰り返す、という手順で動作します。

初期値の影響とk-means++

k-meansは初期中心点の選び方に結果が左右されます。k-means++は初期中心点を互いに離れた位置に配置する改良手法で、より良いクラスタリング結果を得やすくします。

k-meansの限界

球状のクラスタを仮定しているため、不規則な形状のクラスタには不向きです。また、外れ値に敏感で、クラスタ数kを事前に指定する必要があります。これらの限界を補うDBSCANやGMMなどの手法もあります。