階層的クラスタリング(Hierarchical Clustering)とは、データを階層的な木構造(デンドログラム)に組織化するクラスタリング手法です。クラスタ数を事前に指定する必要がなく、異なる粒度でデータ構造を観察できます。
凝集型と分割型
凝集型(ボトムアップ)は各データ点を個別のクラスタとし、最も近いクラスタ同士を繰り返し結合していきます。分割型(トップダウン)は全データを1つのクラスタとし、順に分割していきます。凝集型が一般的です。
結合基準
クラスタ間の距離の計算方法には、最短距離法(Single Linkage)、最長距離法(Complete Linkage)、平均距離法(Average Linkage)、ウォード法(Ward's Method)などがあります。ウォード法がバランスの良いクラスタを生成しやすいとされています。
デンドログラム
階層的クラスタリングの結果はデンドログラム(樹形図)で可視化でき、任意の高さで切断することで異なるクラスタ数での分割結果を得られます。