📋プロジェクトマネジメント

ITサービス継続性管理とは?BCP/DR計画の策定と実践を解説

ITサービス継続性管理(ITSCM)は、災害や障害からITサービスを復旧させる計画と体制を整備する手法です。BCP/DR計画の策定方法と訓練の進め方を解説します。

#ITSCM#BCP#DR#災害復旧

    ITサービス継続性管理とは

    ITサービス継続性管理(ITSCM: IT Service Continuity Management)とは、災害、大規模障害、サイバー攻撃などの重大なインシデント発生時に、ITサービスを事前に定めた目標時間内に復旧させるための計画・体制・訓練を整備する管理手法です。

    ITSCMはITIL(Information Technology Infrastructure Library)のサービスデザインプロセスの一つとして体系化されています。ITILは1980年代に英国政府のCCTA(現OGC)が策定を開始し、ITサービスマネジメントのベストプラクティスとして発展してきました。ITSCMは事業継続管理(BCM)のIT領域における具体的実装に位置づけられます。

    コンサルティングの現場では、金融機関や社会インフラ企業において、規制要件を満たすITSCM体制の構築支援が求められます。

    :::box-point ITILのサービスデザインプロセスとして体系化されたITSCMは、RTO(目標復旧時間)とRPO(目標復旧時点)の2つの指標で復旧目標を定量的に管理します。これらの指標は事業影響度分析(BIA)の結果に基づいて設定されます。 :::

    ITサービス継続性管理のフェーズと復旧指標

    構成要素

    ITSCMは以下の要素とプロセスで構成されます。

    2つの復旧指標

    指標定義
    RTO(目標復旧時間)災害発生からサービス復旧までの目標時間基幹系: 4時間以内
    RPO(目標復旧時点)許容できるデータ損失の時間幅基幹系: 1時間前まで

    ITSCMの4フェーズ

    • 事業影響度分析(BIA): 各ITサービスの停止が事業に与える影響を定量評価
    • リスクアセスメント: 災害や障害の発生確率と影響度を分析
    • 復旧戦略の策定: RTO/RPOを満たす復旧方式とインフラ構成を設計
    • 復旧計画の整備と訓練: 具体的な手順書の策定とDR訓練の実施

    実践的な使い方

    ステップ1: 事業影響度分析の実施

    各ITサービスの停止が事業に与える影響を時間軸で分析します。停止1時間後、4時間後、24時間後の損失額やレピュテーションリスクを定量化し、サービスの優先度を決定します。

    ステップ2: RTO/RPOの設定

    BIAの結果に基づき、各サービスのRTOとRPOを設定します。事業部門と合意した目標値をSLAとして文書化します。コストとリスクのバランスを考慮し、現実的な数値を設定してください。

    ステップ3: 復旧戦略の設計

    RTO/RPOを達成する復旧方式を設計します。コールドスタンバイ、ウォームスタンバイ、ホットスタンバイの中から、コストと復旧速度のバランスで選択します。クラウドのマルチリージョン構成も選択肢です。

    ステップ4: 復旧計画書の策定

    具体的な復旧手順書を策定します。インフラの起動手順、データの復元手順、アプリケーションの起動順序、正常性確認の手順を詳細に記述します。

    ステップ5: DR訓練の定期実施

    年1回以上のDR訓練を実施します。机上訓練から始め、段階的にシステム切替を伴う実機訓練に発展させます。訓練結果を分析し、計画の改善を継続します。

    活用場面

    金融機関のシステム運用では、規制当局の要求に基づき、基幹系システムのRTOを2〜4時間に設定し、マルチサイトのDR環境を構築します。

    ECサイトの運用では、売上機会の逸失を最小化するため、ホットスタンバイ構成で自動フェイルオーバーを実現します。

    クラウド環境のDR設計では、マルチリージョン構成とIaCを組み合わせ、復旧環境の迅速な構築を自動化します。

    注意点

    :::box-warning DR計画は策定しただけでは意味がありません。定期的な訓練と計画の更新を怠ると、実際の災害時に手順が機能しない事態に陥ります。インフラ変更やシステム更新の都度、DR計画の整合性を見直してください。 :::

    コスト最適化の偏り

    DR環境のコスト削減を優先しすぎると、RTOの達成が困難になります。コールドスタンバイは安価ですが復旧に時間がかかります。事業影響度に見合った投資判断を行ってください。

    依存サービスの復旧順序

    複数のサービスが依存関係を持つ環境では、復旧の順序が重要です。依存関係マップに基づく復旧順序を定義し、訓練で検証してください。順序を誤ると復旧後に連携障害が発生します。

    まとめ

    ITサービス継続性管理は、BIAに基づいてRTO/RPOを設定し、復旧戦略と計画を整備する体系的な管理手法です。計画の策定だけでなく、定期的なDR訓練と計画の継続的な改善が、実際の災害時にITサービスを確実に復旧させる鍵です。

    関連記事