手動フェイルオーバーテストの手順
手動フェイルオーバー テストにより、停止時やメンテナンス時に運用を中断することなくシステムをバックアップに切り替えることができます。プロセスの概要は次のとおりです。
- なぜそれが重要なのか: 回復手順をテストし、バックアップ容量を確認し、チームをトレーニングし、将来の問題を防止します。
- 計画: 目標 (例: ダウンタイム 15 分未満) を設定し、重要なシステム (データベース、アプリ) を選択し、オフピーク時間帯にテストをスケジュールします。
- 準備システムの準備状況、データの同期、バックアップ、ネットワーク接続を確認します。
- 実行: 段階的なフェイルオーバー計画に従い、ログを監視し、バックアップ システムとアプリケーションの機能を検証します。
- 回復テスト後にプライマリ システムに切り替えて、データの一貫性を確認し、将来の改善のために結果を文書化します。
このプロセスにより、ダウンタイムが最小限に抑えられ、データの整合性が確保され、実際のインシデントにチームが対応できるようになります。定期的なテスト (3 か月ごと) と洗練されたドキュメントにより、フェイルオーバー戦略の信頼性が高まります。
フェイルオーバーワークフローのテスト
フェイルオーバーテストの計画
慎重に計画を立てることで、中断を最小限に抑え、手動フェールオーバー テスト中のシステムの復元力を確認できます。目標の設定、システムの選択、テストのスケジュール設定、ドキュメントの準備の方法について説明します。
テスト目標の設定
次のような災害復旧の明確な目標を定義します。
- フェイルオーバー中に許容される最大ダウンタイム(15 分未満を目標)
- システム間のデータ一貫性の検証
- フェイルオーバー後のアプリケーション機能の確保
- ネットワークパフォーマンスの測定
- ユーザーアクセスと認証の確認
テストシステムの選択
以下を含む重要なシステムに焦点を当てます。
- プライマリデータベースサーバー
- 顧客向けアプリケーション
- 業務運営のための社内ツール
- 認証システム
- コアネットワークインフラストラクチャ
依存関係マップを使用して、システムの相互作用を理解します。これにより、どのコンポーネントを一緒にテストする必要があり、どのコンポーネントを分離できるかを判断するのに役立ちます。
テストスケジュールとチームの最新情報
オフピーク時間帯にテストを計画し、次の点を考慮してください。
- メンテナンスウィンドウ: 事前にスケジュールされたメンテナンス時間に合わせてテストを調整します。
- タイムゾーン: 世界中のチームの所在地とさまざまな営業時間を考慮します。
- リソースの可用性: テスト全体を通じて主要なチームメンバーが参加できることを確認します。
- ビジネスカレンダー: 月末処理などの繁忙期は避けてください。
少なくとも 2 週間前にテスト スケジュールを関係者に通知します。次のような詳細を含めます。
- 予想されるシステムダウンタイム
- サービス中断の可能性
- 緊急連絡先
- ロールバック手順
テスト計画の作成
徹底的なテスト計画には次の内容を含める必要があります。
1. フェイルオーバー前のチェックリスト
システムのバックアップ、データ同期の検証、リソースの割り当てなど、すべての準備手順をリストします。
2. 実行手順
フェイルオーバーのアクションの正確なシーケンスを説明します。コマンド、構成の変更、検証ポイントを含めます。
3. 成功基準
成功を測定するための指標を定義します。例:
- システム応答時間
- データ整合性チェック
- アプリケーション機能テスト
- ユーザーアクセスの検証
4. ロールバック手順
問題が発生した場合にプライマリ システムに戻すための詳細な手順を提供します。ロールバックをトリガーする条件を指定します。
システム準備チェック
フェイルオーバー テストを開始する前に、すべての主要コンポーネントが配置されていることを確認することが重要です。これにより、最適なテスト条件が作成され、予期しない問題のリスクが軽減されます。システム構成の確認、データ同期の確認、バックアップの正常性の確認、ネットワーク接続のテストに重点を置いてください。
システム設定のレビュー
まず、現在のシステム設定を確認します。
- CPU、メモリ、ストレージの割り当てを確認します。
- 必要なサービスがすべて実行されていることを確認します。
- 権限とアクセス制御を確認します。
- セキュリティ設定を再確認してください。
- 確認する 監視ツール 正しく設定されています。
バージョン番号、パッチ レベル、設定などの構成を記録して、フェールオーバー テスト後に検証できるようにします。これらの手順により、システムがテストの準備が整っていることが保証されます。
データ同期ステータス
システム構成を確認した後、データ同期が期待どおりに機能していることを確認します。
- レプリケーションの遅延を測定します。
- データベースの一貫性を確認します。
- ファイル システムの同期を確認します。
- チェックサムを使用してデータの整合性を検証します。
リアルタイム同期インジケーターに注目してください。ほとんどのビジネス アプリケーションでは、レプリケーション ラグは 60 秒未満である必要があります。これにより、フェイルオーバー テストに備えてデータが準備されていることが保証されます。
バックアップシステムチェック
バックアップ システムを徹底的に検査して、準備ができていることを確認します。
ハードウェア:
- 電源システムと冷却をチェックします。
- ストレージ容量とパフォーマンスが要件を満たしていることを確認します。
- ネットワーク インターフェイス カードを確認します。
- 冗長コンポーネントを検査します。
ソフトウェア:
- オペレーティング システムの健全性を評価します。
- アプリケーションの依存関係が機能していることを確認します。
- バックアップ ツールとユーティリティを確認します。
- 監視エージェントを検証します。
アクセス制御:
- 認証システムをテストします。
- ユーザー権限を確認します。
- セキュリティ証明書が有効であることを確認します。
- VPN 接続を確認します。
これらのチェックにより、バックアップ システムが完全に動作し、フェールオーバー テストの準備ができていることを確認します。
ネットワークチェック
次の基準を使用してネットワーク接続を評価します。
| テストの種類 | 受け入れ基準 | 方法 |
|---|---|---|
| レイテンシー | 50ミリ秒未満 | Pingテスト |
| 帯域幅 | 1Gbps以上 | iperf3 テスト |
| DNS 解決 | 100ミリ秒未満 | 掘る/nslookup |
| ロードバランサー | アクティブ/パッシブステータス | 健康診断 |
さまざまなネットワーク セグメントからこれらのテストを実行し、すべての潜在的なフェールオーバー パスがカバーされていることを確認します。フェールオーバー プロセス中およびフェールオーバー プロセス後に比較するために、ベースライン パフォーマンス メトリックを文書化します。
さらに、冗長ネットワーク パスが構成され、使用可能であることを確認します。該当する場合は、ネットワーク コンポーネントの自動フェールオーバーをテストし、プライマリ サイトとバックアップ サイト間で必要なすべてのポートとプロトコルが開いていることを確認します。
sbb-itb-59e1987
フェイルオーバーテストの実行
準備チェックを完了したら、潜在的な中断を最小限に抑えるために、フェイルオーバー プロセスを慎重に進めます。
フェイルオーバーを開始
- 少なくとも 15 分前に関係者に通知します。
- すべてのトランザクションを一時停止し、レプリケーションの遅延がないことを確認します。
- フェイルオーバー シーケンスを開始し、正確な開始時刻を記録します。
システムが最初にどのように応答するかを注意深く監視してください。フェイルオーバー プロセスには通常 30 ~ 45 秒かかります。それ以上かかる場合は、すぐに調査してください。プロセスが開始したら、リアルタイムのログ監視に焦点を移し、問題が発生したらすぐに特定します。
システムログを監視する
システム ログを監視することは、問題を早期に発見するために重要です。
| ログタイプ | 警告サイン | 重大なアラート |
|---|---|---|
| 応用 | 接続タイムアウト | サービスがクラッシュする |
| データベース | レプリケーションエラー | データ破損 |
| 通信網 | パケット損失 > 1% | 接続失敗 |
| セキュリティ | 認証の遅延 | アクセス違反 |
リアルタイム メッセージを追跡するには、コマンド ライン インターフェイス (CLI) を開いたままにしてください。「FAIL」または「ERR」で始まるエラー コードには特に注意してください。これらのエラー コードは、すぐに対処する必要がある緊急の問題を示していることが多いためです。
バックアップサイトを確認する
フェイルオーバーを開始した後、バックアップ サイトが正しく機能していることを確認します。
1. サービスの可用性
バックアップ サイトのすべてのコア サービスが 60 秒以内に「アクティブ」ステータスを示していることを確認します。遅延がある場合は確認のために記録します。
2. リソースの利用
移行中は、次の重要な指標を監視します。
- CPU使用率: 80% 未満に維持する必要があります。
- メモリ使用量: 75% 未満の使用率を目指します。
- ストレージI/O: 2,000 IOPS 未満に抑えます。
- ネットワークスループット: 通常レベルの 40-60% での使用が想定されます。
3. 負荷分散
トラフィックがバックアップ サイトに正しくルーティングされていることを確認します。ロード バランサー メトリックをチェックして、トラフィックが利用可能なリソース全体に均等に分散されていることを確認します。
アプリとデータをテストする
主要なアプリケーションをすぐにテストし、データの整合性を検証します。
- コアアプリケーションテスト: 基本的な CRUD 操作を実行し、ユーザー認証をテストし、重要なビジネス ワークフローをチェックし、API の応答性を確認します。
- データ検証: データベースの一貫性を確保し、ファイル システムの整合性を検証し、最近のトランザクションを確認し、データ取得速度をテストします。
セカンダリ システムに移る前に、まずミッション クリティカルなアプリケーションのテストに重点を置きます。ベースライン測定値から 20% 以上逸脱する応答時間などの異常をすべて文書化します。
フェイルオーバー後のテスト
バックアップ サイトが稼働したら、次のステップは重要なビジネス機能が適切に動作していることを確認することです。これには、操作を慎重にチェックおよび検証して、すべてが正常に動作していることを確認することが含まれます。
ビジネス機能チェック
- 完全なビジネス トランザクション サイクルを実行して、外部統合を含むワークフローとデータ フローをシームレスに確認します。
- 以前のアプリケーション テストではカバーされていなかった外部システムとの主要な接続をテストします。
- スケジュールされたすべてのタスクが時間どおりに実行されていることを確認します。
- 矛盾を避けるために、報告システムの正確性を確認してください。
これらの手順は、バックアップ環境が中断することなく重要な操作を処理できることの確認に役立ちます。これらの検証を複数回実行することで、一貫したパフォーマンスが確保され、問題に迅速に対処できるようになります。
メインシステムに戻る
バックアップ システムが正常に機能していることを確認したら、プライマリ システムに戻ります。これには、通常の操作を復元するための以前の手順を逆に実行することが含まれます。
返品手続きを開始する
関連するすべての関係者に通知し、技術チームと調整します。データベースの同期やアプリケーションの切り替えタイミングなど、プロセスのすべてのステップを追跡するためのチェックリストを準備します。
必ず次の点に注意してください:
- すべての重要なプロセスが完了していることを確認します。
- 保留中のトランザクションが残っていないことを確認します。
- リバース中に参照できるように一時的なルーティング ルールを文書化します。
- システム操作が期待どおりに機能していることを確認します。
データ同期の検証
以下の点を確認して、システム間のデータの一貫性を確保します。
- データベース トランザクション ログの正確な再生。
- ファイル システムの変更の完全な同期。
- システム間でのタイムスタンプ付きレコードの調整。
- フェイルオーバー中に使用される一時ファイルの削除。
最終的な切り替えに進む前に、チェックサムや比較ソフトウェアなどのツールを使用して、フェイルオーバー中に変更されたすべてのデータがシステム間で一致していることを確認します。
プライマリシステムの検査
徹底的なヘルス チェックを実行して、プライマリ システムの準備ができていることを確認します。
- インフラの状況: すべてのハードウェア コンポーネントが動作していることを確認します。
- ネットワーク接続: 適切なルーティング構成を確認します。
- アプリケーションサービス: アプリケーション サービスを正しい順序で開始します。
- セキュリティシステム: すべてのセキュリティ対策が有効で機能していることを確認します。
結果を文書化する
プライマリ システムが完全に復元されたら、結果を記録して将来のプロセスを改善します。
- テストメトリクス
フェイルオーバー期間、データ同期時間、問題数、パフォーマンス比較などの主要なメトリックを記録します。 - 問題に関するドキュメント
- エラー メッセージとその解決方法をメモします。
- 実行されたトラブルシューティング手順の詳細。
- フェイルオーバーによるビジネスへの影響を評価します。
- 改善点
- プロセスの非効率性やボトルネックを特定します。
- コミュニケーションのギャップを強調します。
- ドキュメントを改善できる領域を指摘します。
- 遭遇した技術的な制約に対処します。
すべてのドキュメントを、災害復旧チームが将来の参照のためにアクセスできる集中管理された場所に保存します。
まとめ
手動フェイルオーバー テストには、慎重な計画、徹底したチェック、正確な実行、スムーズな回復プロセスが含まれます。主要なフェーズの詳細は次のとおりです。
- 計画: 目標を定義し、依存関係をマッピングし、役割を割り当て、潜在的なリスクに対処します。
- 検証: インフラストラクチャが準備され、データが同期され、ネットワークが接続され、セキュリティが確保されていることを確認します。
- 実行: フェイルオーバーを段階的に実行し、リアルタイムで監視し、アプリケーションの機能をチェックし、パフォーマンス メトリックを追跡します。
- 回復: プライマリ システムを復元し、データが正確であることを確認し、サービスが実行されていることを確認し、プロセス全体を文書化します。
フェイルオーバー テストを改善するには:
- 3 か月ごとにテストをスケジュールします。
- ドキュメントを最新の状態に保ってください。
- チームの責任をローテーションして専門知識を構築します。
- 各テストの後にプロセスを評価して改良します。
適切に実行されたフェイルオーバー テストにより、中断中に業務を継続する能力が強化されます。制御された環境で現実的なシナリオをシミュレートすることで、実稼働システムを危険にさらすことなく、信頼性の高い結果が保証されます。