📈データ分析・定量スキル

ARIMAモデルとは?自己回帰と移動平均を統合した時系列予測の標準手法

ARIMAモデルは、自己回帰(AR)・差分(I)・移動平均(MA)を統合した時系列予測の標準手法です。モデルの構造、パラメータの選び方、Box-Jenkins法による構築手順、注意点を体系的に解説します。

#ARIMA#時系列予測#Box-Jenkins#自己回帰

    ARIMAモデルとは

    ARIMA(Autoregressive Integrated Moving Average)モデルとは、時系列データの予測に用いられる統計モデルで、「自己回帰」(AR: Autoregressive)、「差分」(I: Integrated)、「移動平均」(MA: Moving Average)の3つの成分を統合した手法です。

    時系列データには「過去の自分自身の値に依存する」性質(自己相関)があります。ARIMAモデルはこの自己相関構造を体系的にモデル化し、将来の値を予測します。統計学に基づく厳密なモデルであり、予測精度と理論的な解釈性の両方を兼ね備えている点が強みです。

    コンサルティングの現場では、売上予測、マクロ経済指標の予測、需要予測など、時系列予測が求められる場面でARIMAモデルが標準的な手法として活用されます。指数平滑法よりも柔軟な時系列構造を表現でき、機械学習モデルよりも解釈性が高いという位置づけです。

    ARIMAモデルは、1970年にGeorge E. P. Box(ジョージ・ボックス)とGwilym M. Jenkins(グウィリム・ジェンキンス)が著書「Time Series Analysis: Forecasting and Control」で体系化しました。モデルの構築手順は「Box-Jenkins法」として知られ、時系列分析の標準的なアプローチとして世界中で教育・活用されています。

    ARIMAモデルはARIMA(p, d, q)と表記されます。pは自己回帰の次数、dは差分の回数、qは移動平均の次数です。たとえばARIMA(1, 1, 1)は、1次の自己回帰、1回の差分、1次の移動平均を組み合わせたモデルです。この3つのパラメータの適切な選定が、モデルの予測精度を左右します。

    構成要素

    ARIMAモデルは3つの成分で構成されます。

    ARIMAモデルの構造(ARIMA Structure)

    AR(自己回帰)成分

    現在の値が過去の値の線形結合で表されるという仮定です。

    パラメータ意味
    p = 11期前の値に依存前月の売上が今月に影響
    p = 22期前までの値に依存前月と前々月の売上が影響

    I(差分)成分

    データが非定常(トレンドを持つ)場合に、差分を取って定常化する処理です。

    パラメータ意味操作
    d = 0差分不要(データが定常)原系列をそのまま使用
    d = 11回差分前期との差を計算
    d = 22回差分1回差分の差をさらに計算

    MA(移動平均)成分

    現在の値が過去の予測誤差(ホワイトノイズ)の線形結合で表されるという仮定です。

    パラメータ意味効果
    q = 11期前の予測誤差に依存短期的なショックの影響を反映
    q = 22期前までの予測誤差に依存やや長い期間のショックを反映

    SARIMA(季節性ARIMA)

    季節性のあるデータには、ARIMAに季節成分を追加したSARIMA(p, d, q)(P, D, Q, m)を使用します。mは季節周期(月次データなら12)です。

    実践的な使い方

    ステップ1: データを可視化し定常性を確認する

    時系列データをプロットし、トレンドや季節性の有無を目視で確認します。さらに、ADF検定(拡大ディッキー・フラー検定)でデータの定常性を統計的に判定します。非定常であれば差分を取り、定常化した上でモデリングに進みます。

    ステップ2: 差分の回数(d)を決定する

    ADF検定のp値が0.05未満になるまで差分を取ります。多くのビジネスデータではd = 1(1回差分)で定常化できます。d = 2以上が必要な場合は稀であり、データに問題がないか再確認してください。

    ステップ3: ACF・PACFからp, qの候補を選定する

    自己相関関数(ACF)と偏自己相関関数(PACF)のプロットから、ARとMAの次数の候補を特定します。

    プロットパターン示唆
    ACFが急激に減衰PACFがp次でカットオフAR(p)モデルが適切
    PACFが急激に減衰ACFがq次でカットオフMA(q)モデルが適切
    両方が徐々に減衰-ARMA(p, q)の組み合わせが必要

    ステップ4: 情報量基準でモデルを選択する

    候補となる複数のモデルを構築し、AIC(赤池情報量基準)やBIC(ベイズ情報量基準)で比較します。AIC / BICが最小のモデルが、予測精度と過学習のバランスが最も良いモデルです。Pythonの auto_arima(pmdarima)を使えば、この探索を自動化できます。

    ステップ5: 残差診断でモデルの妥当性を検証する

    選択したモデルの残差(予測誤差)が「ホワイトノイズ」(無相関で等分散のランダムな変動)であるかを確認します。残差に自己相関が残っている場合、モデルがデータの構造を十分に捉えきれていないことを示すため、パラメータの見直しが必要です。

    活用場面

    • マクロ経済の予測: GDP、物価、失業率などのマクロ経済指標の予測にARIMAが標準的に使用されます
    • 売上予測: 月次・四半期の売上を予測し、予算計画や生産計画の基礎データを提供します
    • 需要予測: 製品別の需要をARIMAで予測し、在庫管理や調達計画に活用します
    • 金融市場の分析: 株価、為替レート、金利の時系列モデリングにARIMAが活用されます
    • KPIの異常検知: ARIMAの予測値と実績値の乖離をモニタリングし、異常の早期検知に使用します

    注意点

    ARIMAモデルは「過去のパターンが将来も継続する」という前提に基づいています。市場環境の構造変化、新技術の登場、規制の変更など、過去にないパターンが生じる場合には予測精度が大きく低下します。予測結果を鵜呑みにせず、外部環境の変化を常に監視してください。

    定常性の確保を怠らない

    非定常なデータにARIMAを適用すると、見かけ上のフィットは良くても予測精度が著しく悪化します。ADF検定で定常性を必ず確認し、必要な差分処理を行ってからモデリングに進んでください。

    パラメータの選定に時間をかけすぎない

    ACF・PACFの解釈やAICの比較に過度に時間をかけることは実務的ではありません。auto_arima などの自動選択ツールでベースラインを作り、ドメイン知識で微調整するアプローチが効率的です。

    長期予測の精度に過信しない

    ARIMAの予測精度は、予測期間が長くなるほど低下します。一般に、データの周期(月次データなら12ヶ月)を超える長期予測は信頼性が低くなります。長期予測が必要な場合は、シナリオ分析と組み合わせて不確実性を明示してください。

    まとめ

    ARIMAモデルは、自己回帰・差分・移動平均の3成分を統合した時系列予測の標準手法です。Box-Jenkins法に従い、定常性の確認、パラメータの選定、残差診断の3ステップでモデルを構築します。統計的な厳密性と解釈性を兼ね備えた手法ですが、過去パターンの延長であるという限界を理解し、構造変化への注意と長期予測の不確実性の明示を心がけることが、実務で信頼される分析を行う鍵です。

    関連記事