教師あり学習(Supervised Learning)

Supervised Learning

機械学習 重要度:高

概要

教師あり学習(Supervised Learning)とは、入力データとそれに対応する正解ラベル(教師データ)の組み合わせをモデルに学習させる機械学習の手法です。「教師」とは正解ラベルのことを指し、正解ラベル付きのデータセットを用いてモデルを訓練することで、未知のデータに対しても正しい出力を予測できるようにすることが目的です。

教師あり学習は機械学習の中で最も広く使われている学習パラダイムであり、画像分類、スパムメール検出、売上予測、医療診断支援など、実社会の多くの課題に適用されています。G検定では、教師あり学習の基本概念に加え、教師なし学習や強化学習との違いを正確に理解しているかが問われます。

詳細解説

教師あり学習の仕組み

教師あり学習では、訓練データとして入力(特徴量)と出力(正解ラベル)のペアが与えられます。モデルはこのペアから入力と出力の対応関係(写像関数)を学習し、新しい入力データに対して正しい出力を予測できるようになります。

学習の流れは以下のとおりです。

  1. 正解ラベル付きの訓練データを用意する
  2. モデルが予測値を出力する
  3. 予測値と正解ラベルの誤差(損失)を計算する
  4. 誤差が小さくなるようにモデルのパラメータを更新する
  5. 2〜4を繰り返し、十分な精度になるまで学習を続ける

分類タスクと回帰タスク

教師あり学習の問題は、出力の形式によって大きく2種類に分けられます。

分類(Classification)

出力が離散的なカテゴリ(クラス)である問題です。例えば、メールがスパムか否かを判定する二値分類や、手書き数字を0〜9の10クラスに分類する多クラス分類があります。分類タスクの代表的な手法には、ロジスティック回帰、サポートベクターマシン(SVM)、決定木、ランダムフォレスト、ニューラルネットワークなどがあります。

回帰(Regression)

出力が連続的な数値である問題です。例えば、住宅価格の予測、気温の予測、株価の予測などが回帰タスクに該当します。回帰タスクの代表的な手法には、線形回帰、リッジ回帰、ラッソ回帰、回帰木、サポートベクター回帰(SVR)などがあります。

訓練データと正解ラベル

教師あり学習の品質は、訓練データの質と量に大きく依存します。正解ラベルが不正確であれば、モデルは誤ったパターンを学習してしまいます。また、訓練データが少なすぎると汎化性能(未知データへの予測性能)が低下し、過学習(オーバーフィッティング)が発生しやすくなります。

正解ラベルの作成(アノテーション)には、通常、人手による作業が必要であり、大規模なデータセットを準備するにはコストと時間がかかるという課題があります。この課題を軽減するために、半教師あり学習やデータ拡張といった手法も研究されています。

代表的な手法

  • 線形回帰:連続値の予測に用いる最も基本的な回帰手法。入力と出力の間に線形関係を仮定します。
  • ロジスティック回帰:二値分類に用いられる手法。シグモイド関数を用いて確率値を出力します。
  • サポートベクターマシン(SVM):マージン最大化によりクラス間の境界を決定する手法。カーネルトリックにより非線形分類にも対応できます。
  • 決定木:条件分岐を木構造で表現し、データを分割して予測する手法。解釈性が高いのが特徴です。
  • ランダムフォレスト:複数の決定木を組み合わせるアンサンブル手法。バギングにより汎化性能を向上させます。
  • ニューラルネットワーク:人間の脳の神経回路を模したモデル。特にディープラーニングでは多層構造により複雑なパターンを学習できます。

歴史・背景

教師あり学習の概念は、統計学における回帰分析の歴史に遡ります。19世紀にフランシス・ゴルトンが提唱した回帰の概念は、現代の教師あり学習の基礎となっています。1950年代には、フランク・ローゼンブラットが考案したパーセプトロンが、最初の教師あり学習アルゴリズムの一つとして知られています。

1960年代以降、線形判別分析やロジスティック回帰が統計学の分野で発展し、1990年代にはサポートベクターマシンやブースティング手法が登場しました。2000年代以降はランダムフォレストやXGBoostなどのアンサンブル手法が実務で広く活用されるようになり、2010年代からはディープラーニングが画像認識や自然言語処理の分野で飛躍的な成果を上げています。

具体的な事例

  • スパムメールフィルタ:メールの本文や件名を特徴量とし、スパムか否かのラベルを用いて学習する二値分類の典型例です。
  • 手書き数字認識:MNISTデータセットなどを用いた多クラス分類。手書きの数字画像を0〜9に分類します。
  • 住宅価格予測:面積、築年数、駅からの距離などの特徴量から住宅価格を予測する回帰タスクです。
  • 医療画像診断:X線やCTスキャン画像から腫瘍の有無を判定する分類タスク。専門家による正解ラベルを用いて学習します。
  • 信用スコアリング:顧客の属性情報から与信リスクを予測し、ローン審査に活用される事例です。

G検定での出題ポイント

  • 教師あり学習の定義と、正解ラベル(教師データ)を使う点を理解する
  • 分類タスクと回帰タスクの違いを具体例で区別できるようにする
  • 教師あり学習・教師なし学習・強化学習の3つの学習パラダイムの違いを正確に説明できること
  • 代表的な教師あり学習の手法名とその用途を把握する
  • 過学習と汎化性能の関係を理解する
試験対策のポイント
  • 教師あり学習は「正解ラベル付きデータ」で学習する手法。分類と回帰の2種類のタスクがある
  • 分類は離散的なカテゴリ(クラス)を予測し、回帰は連続的な数値を予測する
  • 教師なし学習はラベルなしデータから構造を発見する手法(クラスタリング、次元削減など)
  • 強化学習は環境との相互作用から報酬を最大化する手法で、正解ラベルは使わない
  • 訓練データの質が低いと学習結果も悪くなる(Garbage In, Garbage Out)