線形回帰(Linear Regression)
Linear Regression
概要
線形回帰(Linear Regression)とは、入力変数(説明変数・特徴量)と出力変数(目的変数)の間に線形関係を仮定し、連続的な数値を予測する回帰手法です。機械学習の中で最も基本的かつ重要なアルゴリズムの一つであり、統計学の歴史においても長い伝統を持つ手法です。
線形回帰のモデルは y = wx + b という単純な数式で表され、データに最もよくフィットする直線(または超平面)を求めることが学習の目的です。理解しやすく解釈性が高いため、予測モデルの基礎として広く活用されるだけでなく、より複雑なモデルを理解するための出発点にもなります。
詳細解説
線形回帰の数式
線形回帰では、入力 x と出力 y の関係を以下の式でモデル化します。
y = wx + b
ここで、w は重み(Weight)または回帰係数、b はバイアス(切片)と呼ばれるパラメータです。学習の目的は、訓練データに対して予測値と実際の値の誤差が最小になるような w と b の値を求めることです。
最小二乗法(Ordinary Least Squares: OLS)
線形回帰のパラメータを推定する最も一般的な方法が最小二乗法です。最小二乗法では、予測値と実際の値の差(残差)の二乗和を最小化するようにパラメータを決定します。
残差の二乗和(RSS: Residual Sum of Squares)は次のように定義されます。
RSS = Σ(yi - (wxi + b))^2
この式を最小化するパラメータ w, b は、解析的に(正規方程式を用いて)求めることができます。これが線形回帰の大きな利点の一つです。
単回帰と重回帰
単回帰分析(Simple Linear Regression)
説明変数が1つだけの場合を単回帰分析と呼びます。y = wx + b の形で、二次元平面上に直線をフィットさせます。例えば、部屋の面積だけで家賃を予測するような場合が単回帰に該当します。
重回帰分析(Multiple Linear Regression)
説明変数が2つ以上の場合を重回帰分析と呼びます。数式は y = w1x1 + w2x2 + ... + wnxn + b のようになり、多次元空間上に超平面をフィットさせます。例えば、面積、築年数、駅からの距離など複数の特徴量を用いて家賃を予測する場合が重回帰です。
重回帰分析では、各説明変数の回帰係数(重み)の大きさを見ることで、どの変数が出力にどの程度影響しているかを解釈できるという利点があります。ただし、説明変数間に強い相関がある場合(多重共線性)、回帰係数が不安定になるという問題があります。
正則化(Regularization)
重回帰分析で特徴量の数が多い場合、過学習(オーバーフィッティング)が発生しやすくなります。正則化は、モデルの複雑さにペナルティを課すことで過学習を抑制する手法です。
L2正則化(リッジ回帰 / Ridge Regression)
損失関数に回帰係数の二乗和(L2ノルム)をペナルティ項として加えます。回帰係数を全体的に小さくする効果があり、多重共線性がある場合にも安定した推定が可能です。係数が完全に0になることはありません。
L1正則化(ラッソ回帰 / Lasso Regression)
損失関数に回帰係数の絶対値の和(L1ノルム)をペナルティ項として加えます。一部の回帰係数を完全に0にする効果(スパース性)があり、特徴量選択の役割も果たします。不要な特徴量を自動的に除外できる点が大きな特徴です。
Elastic Net
L1正則化とL2正則化を組み合わせた手法です。ラッソ回帰の特徴量選択能力とリッジ回帰の安定性を兼ね備えています。
歴史・背景
回帰分析の起源は19世紀に遡ります。1805年にアドリアン=マリ・ルジャンドルが最小二乗法を発表し、1809年にはカール・フリードリヒ・ガウスが独立に同様の方法を提案しました。「回帰」という用語は、1886年にフランシス・ゴルトンが親と子の身長の関係を研究する中で用いたもので、身長が平均に回帰する(Regression toward the Mean)現象を記述したことに由来します。
20世紀に入り、統計学の発展とともに回帰分析の理論は大きく発展しました。1970年代にはリッジ回帰(ホール&ケナード、1970年)、1996年にはラッソ回帰(ロバート・ティブシラニ)が提案され、高次元データへの対応が進みました。現在では、線形回帰は機械学習の基礎として、あらゆるデータサイエンスの教育において最初に学ぶ手法となっています。
具体的な事例
- 住宅価格予測:面積、部屋数、築年数、駅からの距離などの特徴量から住宅の販売価格を予測します。不動産業界では重回帰分析が広く活用されています。
- 売上予測:広告費、季節要因、過去の販売実績などを説明変数として、将来の売上を予測します。
- 気温予測:過去の気象データ(気圧、湿度、風速など)を用いて気温を予測する回帰モデルを構築します。
- 医療分野:患者の年齢、体重、血液検査値などから、薬の投与量や治療効果を予測するモデルに活用されています。
- 経済分析:GDP、失業率、インフレ率などのマクロ経済指標間の関係を分析するために回帰分析が用いられています。
G検定での出題ポイント
- 線形回帰は連続値を予測する回帰手法であり、分類ではないことを理解する
- 最小二乗法は予測値と実測値の差の二乗和を最小化する手法であることを押さえる
- 単回帰(説明変数1つ)と重回帰(説明変数複数)の違いを区別する
- L1正則化(ラッソ)とL2正則化(リッジ)の違い、特にラッソのスパース性を理解する
- 線形回帰は教師あり学習の回帰タスクに分類されることを確認する
- 線形回帰の数式 y = wx + b を理解し、w(重み)と b(バイアス)の意味を把握する
- 最小二乗法は残差の二乗和を最小化してパラメータを推定する手法
- L1正則化(ラッソ)は一部の係数を0にする(スパース化・特徴量選択)
- L2正則化(リッジ)は係数を全体的に小さくする(0にはならない)
- 線形回帰は「分類」ではなく「回帰」タスク。分類にはロジスティック回帰を使う