クラスタリング(Clustering)とは、ラベルなしのデータを類似性に基づいてグループ(クラスタ)に分割する教師なし学習の手法です。データの構造を発見し、パターンを理解するための探索的データ分析に広く活用されています。
クラスタリングの手法
分割型(k-means、k-medoids)、階層型(凝集型・分割型)、密度ベース(DBSCAN、OPTICS)、モデルベース(GMM)など、様々なアプローチがあります。データの特性やクラスタの形状に応じて適切な手法を選択します。
クラスタ数の決定
クラスタ数の決定はクラスタリングにおける重要な課題です。エルボー法、シルエット分析、Gap統計量などの手法を用いて適切なクラスタ数を推定します。
活用例
顧客セグメンテーション、画像セグメンテーション、異常検知、文書クラスタリング、遺伝子発現解析など、幅広い分野で応用されています。