Overview
バックアップ・災害復旧(Backup & Disaster Recovery)とは、システム障害、自然災害、サイバー攻撃、人的ミスなどによるデータ損失やサービス停止に備え、データの複製を保存し、迅速にシステムを復旧するための包括的な戦略・プロセスを指します。バックアップはデータの複製を定期的に作成・保管する行為であり、災害復旧(DR:Disaster Recovery)は障害発生後にITインフラとデータを復旧し、事業を継続するための計画と手順です。
現代の企業活動においてデータは最も重要な資産の一つであり、その消失はビジネスの存続に直結します。ランサムウェア攻撃の急増により、バックアップの重要性はかつてないほど高まっています。適切なバックアップ戦略がなければ、ランサムウェアによるデータ暗号化を受けた場合に身代金を支払うか、データを永久に失うかの選択を迫られることになります。RPO(Recovery Point Objective:目標復旧時点)とRTO(Recovery Time Objective:目標復旧時間)は、バックアップ・DR戦略の中核を成す指標です。
効果的なバックアップ・DR計画は、技術的な実装だけでなく、組織全体のポリシー、定期的なテスト、関係者の教育訓練を含む総合的なアプローチが必要です。クラウドコンピューティングの普及に伴い、DRaaS(Disaster Recovery as a Service)やBaaS(Backup as a Service)といったクラウドベースのソリューションが台頭し、中小企業でも高度なDR戦略を実現できるようになっています。
Details
バックアップの3つの方式
バックアップには主に3つの方式があります。フルバックアップはすべてのデータを完全に複製する方式で、復元が最も単純ですが、時間とストレージを大量に消費します。差分バックアップは最後のフルバックアップ以降に変更されたデータのみを保存する方式で、復元時にはフルバックアップと最新の差分バックアップが必要です。増分バックアップは最後のバックアップ(フル・差分・増分のいずれか)以降の変更分のみを保存する方式で、バックアップ時間とストレージが最も少なくて済みますが、復元にはフルバックアップと以降のすべての増分バックアップが必要です。
3-2-1ルールとバックアップ戦略
バックアップのベストプラクティスとして広く知られる3-2-1ルールは、データの3つのコピーを、2種類の異なるメディアに保存し、そのうち1つはオフサイト(遠隔地)に保管するという原則です。近年のランサムウェア対策として、このルールは3-2-1-1-0ルールに拡張されており、追加の1はオフライン(エアギャップ)コピーまたはイミュータブル(変更不可能な)バックアップを意味し、0はバックアップの復元テストでエラーが0件であることを指します。
RPOとRTO
RPO(Recovery Point Objective:目標復旧時点)は、障害発生時にどの時点までのデータを復旧できるかを定義する指標です。RPOが1時間であれば、最大1時間分のデータ損失が許容されることを意味し、少なくとも1時間ごとのバックアップが必要です。RTO(Recovery Time Objective:目標復旧時間)は、障害発生からシステム復旧までの目標時間です。RTOが4時間であれば、4時間以内にシステムを復旧させる必要があります。
RPOとRTOは事業影響度分析(BIA)に基づいて設定され、値が小さいほど高度なインフラと投資が必要になります。ミッションクリティカルなシステムではRPO/RTOともにゼロに近い値が求められ、ホットスタンバイやリアルタイムレプリケーションなどの技術が必要です。
災害復旧サイトの種類
DRサイトには3つの種類があります。ホットサイトは本番環境とほぼ同等のインフラが常時稼働しており、データもリアルタイムで同期されるため、数分以内のフェイルオーバーが可能です。ウォームサイトはハードウェアは設置済みですが、データの同期にタイムラグがあり、復旧には数時間を要します。コールドサイトは基本的な設備のみが準備されており、機器の設置やデータのリストアから始めるため、復旧に数日かかりますが、コストは最も低くなります。
イミュータブルバックアップとランサムウェア対策
近年のランサムウェアはバックアップデータ自体を標的にする手口が増えています。イミュータブルバックアップは、一度書き込んだデータを一定期間変更・削除できないようにする技術で、WORM(Write Once Read Many)ストレージやオブジェクトロックにより実現します。これにより、ランサムウェアがバックアップを暗号化・削除することを防ぎ、確実にクリーンな状態からの復旧を可能にします。
さらに、エアギャップバックアップはネットワークから物理的に隔離された場所にバックアップを保管する方法で、ネットワーク経由の攻撃からバックアップを完全に保護します。テープバックアップやリムーバブルメディアへのバックアップが代表的な手段です。
Security Measures
- 013-2-1-1-0ルールの実践:データの3つのコピーを2種類のメディアに保存し、1つはオフサイトに保管、さらに1つはオフラインまたはイミュータブルストレージに保管してください。定期的な復元テストを実施し、エラーが0件であることを確認しましょう。
- 02バックアップデータの暗号化:バックアップデータは保存時(at rest)と転送時(in transit)の両方で暗号化してください。AES-256等の強力な暗号化アルゴリズムを使用し、暗号鍵はバックアップデータとは別の安全な場所で管理しましょう。
- 03定期的な復元テストの実施:バックアップは復元できなければ意味がありません。少なくとも四半期に一度は完全な復元テストを実施し、RPO/RTOの目標値を達成できることを確認してください。テスト結果は文書化し、問題点があれば速やかに改善しましょう。
- 04バックアップへのアクセス制御:バックアップデータへのアクセスは最小権限の原則に基づいて厳格に制限してください。多要素認証(MFA)を必須とし、アクセスログを監視して不正なアクセスを早期に検知できるようにしましょう。
- 05イミュータブルバックアップの導入:ランサムウェア対策として、一定期間変更・削除不可能なイミュータブルバックアップを導入してください。WORMストレージやクラウドのオブジェクトロック機能を活用し、バックアップの改ざんを防止しましょう。
- 06DR計画の文書化と訓練:災害復旧計画を詳細に文書化し、関係者全員がその内容を理解していることを確認してください。年に最低1回は机上演習や実地訓練を実施し、計画の実効性を検証・改善しましょう。
Incidents
📋 GitLabのデータベース削除事故(2017年)
2017年、GitLabのエンジニアがメンテナンス作業中に誤って本番データベースを削除するという重大な事故が発生しました。5つのバックアップ手段が用意されていましたが、そのすべてが何らかの理由で正常に機能していなかったことが判明しました。LVMスナップショットは未設定、定期バックアップはエラーで停止、S3へのバックアップは一度も成功していませんでした。
最終的に6時間前のステージング環境のデータから復旧が行われましたが、約6時間分のデータが永久に失われました。この事故は、バックアップの定期的なテストの重要性を世界中に知らしめる象徴的な事例となりました。
📋 OVHcloudデータセンター火災(2021年)
2021年3月、欧州最大級のクラウドプロバイダーOVHcloudのストラスブールデータセンターで大規模な火災が発生しました。4棟のデータセンターのうち1棟が完全に焼失し、隣接する1棟も部分的に被害を受けました。数万の顧客のサーバーとデータが影響を受け、多くの企業のWebサイトやサービスがオフラインとなりました。
バックアップを同一データセンターにのみ保管していた顧客はデータを永久に失いました。この事故は、オフサイトバックアップの重要性と、クラウドプロバイダーに依存したバックアップ戦略のリスクを浮き彫りにしました。顧客自身がバックアップの地理的分散を確保する責任があることが改めて認識されました。
📋 ランサムウェアによるバックアップ破壊と身代金支払い(2020年)
2020年、大手GPSメーカーのGarminがランサムウェア「WastedLocker」の被害を受け、オンラインサービスが約5日間にわたり停止しました。攻撃者はGarminの社内ネットワーク全体に拡散し、本番システムだけでなく、ネットワークに接続されたバックアップサーバーのデータも暗号化しました。
報道によると、Garminはサービス復旧のために約1,000万ドルの身代金を支払ったとされています。この事例は、バックアップをネットワークから隔離(エアギャップ)することの重要性と、イミュータブルバックアップの必要性を示す代表的な事例です。