正則化とは？過学習を防ぐ機械学習の基本テクニックを解説

正則化とは

正則化とは、機械学習モデルが学習データに過度に適合（過学習）することを防ぎ、未知のデータに対する予測精度（汎化性能）を高めるテクニックの総称です。英語では Regularization と呼ばれます。

モデルの複雑さにペナルティを課すことで、学習データのノイズまで学習してしまうことを防ぎます。統計学では古くから使われてきた概念ですが、機械学習の普及に伴い、その重要性が広く認識されるようになりました。

L2正則化（Ridge回帰）は1970年にアーサー・ホールとロバート・ケナードが提唱しました。L1正則化（Lasso）は1996年にロバート・ティブシラニが発表した手法です。ドロップアウトは2014年にジェフリー・ヒントンらが提唱し、深層学習における正則化の標準的手法となりました。

構成要素

L1正則化（Lasso）

重みの絶対値の合計をペナルティ項として追加します。

一部の重みを完全にゼロにする（スパース性）
自動的に不要な特徴量を除外する効果がある
特徴量選択を兼ねたモデル構築に適する

L2正則化（Ridge）

重みの二乗和をペナルティ項として追加します。

重みの値を全体的に小さく抑える
完全にゼロにはならない（すべての特徴量を使用）
多重共線性がある場合に有効

ElasticNet

L1とL2を混合した正則化手法です。

手法	ペナルティ	スパース性	多重共線性への耐性
L1（Lasso）	重みの絶対値和	高い	低い
L2（Ridge）	重みの二乗和	なし	高い
ElasticNet	L1 + L2の混合	中程度	中程度

ドロップアウト

ニューラルネットワーク特有の正則化手法です。学習時にランダムにノードを無効化（ドロップ）します。

各ノードが独立に有用な特徴を学習するよう促す
アンサンブル学習に近い効果を持つ
ドロップ率は0.2〜0.5が一般的

早期停止（Early Stopping）

検証データの精度が改善しなくなった時点で学習を打ち切る手法です。

過学習が始まる前に学習を停止
追加のハイパーパラメータが少ない
勾配ブースティングやニューラルネットワークで広く使用

実践的な使い方

ステップ1: 過学習の診断

学習曲線を描き、学習データと検証データの精度の乖離を確認します。乖離が大きい場合は過学習が疑われ、正則化の導入を検討します。

ステップ2: 正則化手法の選択

モデルの種類とデータの特性に応じて手法を選びます。線形モデルならL1/L2、ニューラルネットワークならドロップアウト、木系モデルなら早期停止や木の深さ制限が第一選択肢です。

ステップ3: 正則化の強度調整

正則化の強度パラメータを交差検証で最適化します。強すぎると表現力が不足し（過少適合）、弱すぎると正則化の効果が不十分になります。

ステップ4: 効果の検証

正則化の有無で検証データの精度を比較します。学習データの精度は下がっても、検証データの精度が向上していれば正則化は適切に機能しています。

活用場面

特徴量が多く学習データが少ない場面
多重共線性が疑われる回帰分析
ディープラーニングの過学習防止
勾配ブースティングの過学習制御
解釈性の高いスパースなモデルの構築

注意点

正則化の強度が強すぎるとモデルの表現力が不足し、学習データすら適切にフィットできなくなります（過少適合）。逆に弱すぎると効果が不十分です。交差検証による適切な強度調整が不可欠です。

L1正則化による特徴量除外の解釈

L1正則化で特徴量が除外された場合、それが本当に不要な特徴量なのか、正則化の副作用なのかを慎重に判断してください。ドメイン知識との整合性を確認することが重要です。

複数手法の同時適用

複数の正則化手法を同時に適用する場合は、各手法のペナルティ強度を個別に調整する必要があり、チューニングの手間が増大します。探索すべきハイパーパラメータの組み合わせが増えるため、計算コストも考慮してください。

まとめ

正則化は、モデルの複雑さにペナルティを課すことで過学習を防ぎ、汎化性能を高めるテクニックです。L1、L2、ドロップアウト、早期停止など複数の手法があり、モデルとデータの特性に応じて適切に選択・調整することが求められます。

正則化とは？過学習を防ぐ機械学習の基本テクニックを解説