教師なし学習(Unsupervised Learning)
Unsupervised Learning
概要
教師なし学習(Unsupervised Learning)とは、正解ラベル(教師データ)が付与されていないデータから、データの構造やパターンを自動的に発見する機械学習の手法です。教師あり学習が「正解ラベルとの誤差」を最小化するのに対し、教師なし学習はデータに内在する隠れた規則性やグループ構造を見つけ出すことを目的とします。
正解ラベルの作成(アノテーション)にはコストがかかるため、ラベルなしデータを活用できる教師なし学習は、実務においても非常に重要な位置を占めています。代表的なタスクとして、クラスタリング(データのグループ分け)と次元削減(高次元データの圧縮・可視化)があり、顧客セグメンテーションやデータの前処理など幅広い場面で活用されています。
詳細解説
クラスタリング(Clustering)
クラスタリングは、類似したデータを同じグループ(クラスタ)にまとめるタスクです。教師あり学習の分類とは異なり、事前にクラスのカテゴリが定義されておらず、データの特性に基づいてグループが自動的に形成されます。
代表的なクラスタリング手法には以下があります。
- k-means法:データをk個のクラスタに分割する手法。各クラスタの重心からの距離を基準に分類します。シンプルで高速ですが、kの値を事前に決める必要があります。
- 階層的クラスタリング:データ間の距離に基づいて、木構造(デンドログラム)を構築する手法。凝集型(ボトムアップ)と分割型(トップダウン)があります。
- DBSCAN:密度に基づくクラスタリング手法。任意の形状のクラスタを検出でき、ノイズ点の検出も可能です。
次元削減(Dimensionality Reduction)
次元削減は、データの持つ情報をできるだけ保持しながら、特徴量の数(次元数)を減らすタスクです。高次元データの可視化、計算コストの削減、次元の呪いの回避などに有効です。
- 主成分分析(PCA):データの分散が最大になる方向(主成分)を見つけ、その方向に射影することで次元を削減します。線形の次元削減手法として最も広く使われています。
- t-SNE:高次元データを2次元や3次元に可視化するための非線形次元削減手法。データの局所的な構造を保持するのに優れています。
- オートエンコーダ:ニューラルネットワークを用いた次元削減手法。エンコーダで低次元表現に圧縮し、デコーダで復元する構造を持ちます。
教師あり学習との違い
教師あり学習と教師なし学習の最大の違いは、正解ラベルの有無です。教師あり学習では入力と正解の対応関係を学習しますが、教師なし学習ではデータのみからパターンを発見します。そのため、教師なし学習の結果の評価は教師あり学習に比べて難しく、ドメイン知識を活用した定性的な評価が必要になることも多くあります。
| 比較項目 | 教師あり学習 | 教師なし学習 |
|---|---|---|
| 正解ラベル | 必要 | 不要 |
| 主なタスク | 分類・回帰 | クラスタリング・次元削減 |
| 評価方法 | 正解率・MSEなど定量的 | 定性的評価が多い |
| 代表例 | SVM・線形回帰 | k-means・PCA |
その他の関連手法
教師あり学習と教師なし学習の中間的な手法として、半教師あり学習(Semi-supervised Learning)があります。少量のラベル付きデータと大量のラベルなしデータを組み合わせて学習する手法で、ラベル付けコストを削減しながら高い精度を実現できます。また、自己教師あり学習(Self-supervised Learning)は、データ自体から擬似的なラベルを生成して学習する手法で、近年の大規模言語モデルや画像認識モデルで広く活用されています。
歴史・背景
教師なし学習の歴史は、統計学における多変量解析の発展と密接に関わっています。主成分分析(PCA)は1901年にカール・ピアソンによって提案され、1930年代にハロルド・ホテリングが現代的な形式に定式化しました。クラスタリングの分野では、1957年にスチュアート・ロイドがk-means法のアルゴリズムを考案し(論文発表は1982年)、教師なし学習の代表的手法となりました。
2000年代以降、ビッグデータの普及により大量のラベルなしデータが利用可能になったことで、教師なし学習の重要性はさらに高まっています。深層学習の分野では、オートエンコーダやGAN(敵対的生成ネットワーク)など、教師なし学習を活用した手法が次々と開発されています。
具体的な事例
- 顧客セグメンテーション:購買履歴やアクセスログなどのデータを基に、顧客を複数のグループに分類し、マーケティング施策に活用します。
- 異常検知:正常データのパターンを学習し、そこから外れるデータを異常として検出します。製造業の品質管理やサイバーセキュリティで活用されています。
- レコメンデーション:ユーザーの行動パターンの類似性に基づいて、商品や記事の推薦を行います。
- データの前処理:PCAを用いて高次元データを低次元に圧縮し、後続の教師あり学習の精度を向上させます。
- トピックモデリング:大量の文書データからトピック(話題)を自動的に抽出し、文書の分類や要約に活用します。
G検定での出題ポイント
- 教師なし学習は正解ラベルなしでデータの構造やパターンを発見する手法であることを理解する
- クラスタリングと次元削減が教師なし学習の代表的なタスクであることを押さえる
- 教師あり学習・教師なし学習・強化学習の違いを正確に説明できること
- k-means法やPCAが教師なし学習の代表的な手法であることを知っておく
- 半教師あり学習の概念も出題されることがある
- 教師なし学習は「正解ラベルなし」でデータの構造を発見する手法
- クラスタリングは「グループ分け」、次元削減は「特徴量の圧縮」と覚える
- 教師あり学習との最大の違いは「正解ラベルの有無」
- k-means法(クラスタリング)とPCA(次元削減)は代表的手法として必ず覚える
- 半教師あり学習は教師あり学習と教師なし学習を組み合わせた手法