お問い合わせ

info@serverion.com

お電話ください

+1 (302) 380 3902

ロードバランサーの手動フェイルオーバー手順

手動ロードバランサフェイルオーバー 管理者がプライマリサーバーからバックアップシステムにトラフィックをリダイレクトするプロセスです。自動化されたシステムとは異なり、このアプローチでは管理者が完全な制御権を持つため、計画的なメンテナンス、ハードウェアの問題、あるいは人間の判断を必要とする複雑な依存関係などに最適です。このプロセスの概要は次のとおりです。

  • 準備管理者アクセス、最新のネットワーク図、事前設定されたフェイルオーバーグループを確保します。管理にはGUI、CLI、クラウドコンソールなどのツールを使用します。.
  • 実行: 自動プロセスを一時停止し、プライマリサーバーを無効化し、トラフィックをバックアップサーバーにリダイレクトします。必要に応じてDNS設定を調整します。.
  • 検証: トラフィック ルーティングを検証し、パフォーマンスを監視し、システム機能をテストして、バックアップ サーバーが正しく動作することを確認します。.

重要なヒント:

  • 中断を最小限に抑えるには、接続のドレインを使用します。.
  • トラフィックの少ない期間中にフェイルオーバー設定を定期的にテストします。.
  • フェイルオーバー後のメトリックを監視して、異常がないか確認します。.

適切な計画と実行により、手動フェイルオーバーにより、重要な移行時にダウンタイムが最小限に抑えられ、安定した運用が保証されます。.

Google Cloud DNS 経由のフォールバック/フェイルオーバー ロードバランサ

Google クラウド DNS

手動フェイルオーバーの前提条件と準備

手動フェイルオーバー時のダウンタイムを削減し、サービス中断を回避するには、綿密な準備が不可欠です。緊急事態ではトラブルシューティングや不足している要素の収集に割く時間がほとんどないため、問題が発生する前にすべてを準備しておくことが重要です。準備が整ったら、フェイルオーバープロセスを実行するための適切な管理インターフェースを自信を持って選択できます。.

必要な前提条件

まず、管理者の資格情報がロードバランサーインターフェースへのフルアクセスを提供していることを確認します。 GUI, コマンドライン、 または クラウドコンソール – バックエンド サーバーと DNS 設定も同様です。.

ネットワーク図を最新の状態に保ち、バックアップ構成を確認することも同様に重要です。これには、同期されたスタンバイサーバー、アクティブなヘルスチェック、事前設定されたフェイルオーバーグループが含まれます。ネットワークトポロジを文書化し、サーバーの役割、IPアドレス、フェイルオーバーの割り当てを詳細に記述します。このような文書化は、依存関係、トラフィックフロー、フェイルオーバーパスを理解するのに役立ち、重要な局面でのミスを最小限に抑えることができます。.

ツールと管理インターフェース

すべての前提条件が整ったら、次のステップは、迅速かつ効率的なフェイルオーバー実行を可能にするツールを選択することです。.

  • WebベースのGUI リアルタイム監視、設定ウィザード、わかりやすいステータスインジケーターなど、ユーザーフレンドリーな機能を備えています。視覚的なインターフェースを好む管理者に最適です。.
  • コマンドラインインターフェース(CLI) 正確な制御と迅速な実行が可能で、スクリプトや自動化された環境で特に役立ちます。また、GUIが応答しなくなった場合の信頼性の高いフォールバックとしても機能します。.
  • クラウドベースの管理コンソール AWS、Google Cloud、Azure などのクラウド インフラストラクチャは、それぞれのエコシステムとのシームレスな統合を提供します。強化された監視機能、監査ログ機能、簡素化されたフェイルオーバー グループ管理などを備えていることが多く、クラウドベースのインフラストラクチャに最適な選択肢となります。.

DNS管理ツールは、トラフィックのリダイレクトが必要な場合にも重要な役割を果たします。例えば、, アマゾンルート53 ヘルス チェックと自動 DNS フェイルオーバーを提供し、手動作業を補完してシステム全体のスムーズな調整を保証します。.

フェイルオーバーグループの設定

手動フェイルオーバーを開始する前に、ロードバランサー内のフェイルオーバーグループを適切に編成し、構成することが重要です。これらのグループには、プライマリサーバーとバックアップサーバーの両方が含まれ、フェイルオーバー階層において明確な役割の割り当てがされている必要があります。フェイルオーバー時にロードバランサーがサーバーの状態を正確に評価できるよう、グループ内の各サーバーにヘルスチェックが設定されていることを確認してください。.

さらに、設定 接続ドレイン ユーザーの混乱を軽減するための設定です。この機能により、オフラインになっているサーバーへの新規接続のルーティングを防ぎながら、アクティブなセッションを完了できます。ドレインタイムアウトは、ユーザーエクスペリエンスとフェイルオーバー速度のバランスをとる必要があります。通常は、アプリケーションのニーズに応じて30秒から5分の範囲です。.

確認と調整 フェイルオーバーポリシー ビジネス要件に合わせて調整できます。これらのポリシーは、トラフィックの分散、セッションの持続性、フェイルオーバー時のライブトラフィックの管理方法に影響を与えるその他の設定を管理します。一部のクラウドプロバイダーでは、これらの設定を微調整するための詳細な制御機能も提供しています。.

最後に、フェイルオーバー設定を定期的に、できればトラフィックの少ない時間帯にテストしてください。結果を文書化し、発生した問題に基づいて設定を調整してください。これにより、フェイルオーバーグループが必要なときにいつでも対応できるようになります。.

例えば、 Serverion 徹底した準備の重要性を実証しています。グローバルなデータセンターネットワークと継続的な監視により、困難な状況下でもシステムの冗長性を維持しています。彼らのアプローチは、手動フェイルオーバーを成功させるには、綿密な計画と堅牢なインフラストラクチャが鍵となることを如実に示しています。.

手動フェイルオーバー手順

準備フェーズが完了したら、フェイルオーバープロセスを段階的に実行します。Serverionの負荷分散ソリューションをご利用のお客様は、以下の手順に従うことで、トラフィックを効果的にリダイレクトしながら、中断を最小限に抑えることができます。.

フェイルオーバープロセスの開始

手動フェイルオーバーで最初に行うべきことは、自動監視およびレプリケーションプロセスを一時停止することです。この手順により、手動アクションと自動システム間の競合を回避できます。管理者の認証情報を使用して、ロードバランサーの管理インターフェース(Webダッシュボード、コマンドラインツール、クラウドコンソールなど)にログインしてください。.

続行する前に、現在の構成のスナップショットを取得してください。このスナップショットには、サーバーステータスやアクティブな接続などの詳細が含まれている必要があります。これらの指標は、後でフェイルオーバーの成功を確認するためのベースラインとして役立ちます。.

今後のフェイルオーバーについてチームに通知し、サービス中断の可能性に全員が備えられるようにしてください。設定を保存し、システムを一時停止したら、トラフィックをバックアップサーバーにリダイレクトする準備が整います。.

トラフィックをバックアップサーバーにリダイレクトする

自動プロセスが保留中の場合は、プライマリサーバーを「サービス停止中」としてマークして無効にします。このアクションにより、接続ドレイン設定とタイムアウトに応じて、新しい接続は停止しますが、既存のセッションは終了できます。.

次に、トラフィックをバックアップサーバーに切り替えます。ロードバランサーの設定を更新し、バックアップサーバーまたはフェイルオーバーグループを優先します。プラットフォームによっては、サーバーの重み付けの変更、バックエンドグループの設定変更、ルーティングルールの更新が必要になる場合があります。DNSベースのフェイルオーバーを使用している場合は、DNSレコードを更新してバックアップサーバーのIPアドレスを指定します。DNSの伝播時間はTTL(Time to Live)設定によって異なる場合があることにご注意ください。.

トラフィックが正常にリダイレクトされたら、すべてが期待どおりに動作していることを確認します。.

フェイルオーバーの確認と監視

検証はプロセスの重要なステップです。まずは、ロードバランサーのリアルタイムトラフィックログとヘルスダッシュボードを確認し、トラフィックがバックアップサーバーにルーティングされていることを確認してください。バックエンドのアクティビティを確認し、バックアップサーバーが意図したとおりに接続を処理していることを確認してください。.

複数の場所からテストリクエストを実行し、バックアップサーバーからの応答が確実に得られることを確認してください。応答時間、エラー率、そしてアプリケーション全体の機能に細心の注意を払ってください。ユーザーセッションやデータベース接続など、サーバーの変更に影響を受けやすい機能は、特に綿密に調査する必要があります。.

フェイルオーバー後しばらくの間、主要なパフォーマンス指標を監視してください。これらの指標をフェイルオーバー前のベースラインと比較し、応答時間、エラー率、接続の問題などにおける異常な急増を特定してください。フェイルオーバーの完了時間を記録し、発生した課題や異常な点があれば記録してください。この記録は、将来のフェイルオーバーシナリオにおける手順の改善に非常に役立ちます。.

手動フェイルオーバーはリスクを最小限に抑えるように設計されていますが、移行中に短時間のサービス中断が発生することを想定してください。このダウンタイムの長さは、DNS TTL値、ヘルスチェック間隔、コネクションドレインタイムアウトなどの要因によって異なります。.

構成設定とベストプラクティス

正確な構成はスムーズな手動フェイルオーバーの基盤であり、ダウンタイムを最小限に抑え、システムの安定性を確保します。.

主要な構成パラメータ

ヘルスチェック設定 信頼性の高いフェイルオーバーには、ヘルスチェックが重要な役割を果たします。重要なシステムでは、ヘルスチェックを5~10秒ごとに実行するよう設定し、タイムアウト間隔はアプリケーションの応答時間に合わせて調整してください。一時的な問題による不要なフェイルオーバーを回避するには、1回の障害ではなく、2~3回連続して障害が発生した場合にのみ、サーバーを「異常」とマークしてください。.

クラウドベースのロードバランサーの場合、ヘルスチェックプローブは、クライアントトラフィックの地理的分布に合わせて、3つの代表的なリージョンから発信する必要があります。フェイルオーバー検出は、少なくとも2つのリージョンからのプローブが失敗した場合にのみトリガーされ、多様なネットワークパスにわたるサーバーの健全性を包括的に評価できるようにします。.

フェイルオーバー比率の設定 バックアップサーバーが処理できるトラフィック量を決定します。この比率は、バックアップシステムの容量に応じて0.3~0.7の間で設定します。例えば、プライマリサーバーが1,000RPSをサポートし、バックアップサーバーが600RPSを処理できる場合、トラフィック量が多い時間帯にバックアップサーバーが過負荷になるのを防ぐには、0.6の比率が適しています。.

接続ドレイン アクティブな接続を終了させてから、障害が発生したサーバーからトラフィックを再ルーティングすることで、スムーズな移行を実現します。アプリケーションが通常処理する最長のトランザクション期間に応じて、30~300秒のタイムアウトで接続ドレインを設定してください。.

レプリケーション設定 高可用性(HA)クラスタでは、これらの機能は非常に重要です。手動フェイルオーバーを開始する前に、すべてのスタンバイサーバのレプリケーションを一時停止し、プライマリサーバが予期せずオンラインに戻った場合にタイムラインの競合が発生しないようにします。システムは、データ損失を軽減するために、最新のレプリケーションタイムラインを持つスタンバイサーバをフェイルオーバー候補として自動的に選択する必要があります。.

トラフィックドロップ構成 すべてのバックエンドが異常な状態にある場合、受信リクエストをどのように処理するかを決定します。ウェブアプリケーションとAPIの場合、この機能を有効にすると、接続がハングしたままになるのではなく、即座にエラーレスポンスを返すことができます。配信保証が必要な重要なバックエンドサービスの場合、または外部のキューイングシステムを使用している場合は、停止中でもリクエストが保持されるように、この設定を無効にしてください。.

これらのパラメータは、信頼性の高いフェイルオーバー構成の強固な基盤となります。しかし、技術的な設定だけでは不十分であり、運用上のベストプラクティスも同様に重要です。.

フェイルオーバーのベストプラクティス

構成以外にも、フェールオーバー シナリオ中の一貫性と信頼性を確保するには、次のベスト プラクティスに従ってください。.

バージョンの一貫性 は不可欠です。プライマリサーバーとフェイルオーバーサーバーの両方で、必ず同じソフトウェアバージョンが稼働していることを確認してください。バージョンの不一致は、トラフィックの移行時にアプリケーションエラーやデータ破損につながる可能性があります。構成管理ツールを使用して、インフラストラクチャ全体でデプロイメントの同期を維持してください。.

ドキュメントとバージョン管理 明確さを維持するには、ヘルスチェック間隔、フェイルオーバー比率、タイムアウト値などのすべてのフェイルオーバー設定を、インフラストラクチャ・アズ・コードの定義と共に一元化されたリポジトリに保存します。フェイルオーバー比率0.5、コネクションドレインタイムアウト60秒、ヘルスチェック間隔10秒などの値を標準化することで、管理を簡素化できます。.

定期的なテスト手順 は譲れないものです。事業継続計画の一環として、定期的なフェイルオーバーテストをスケジュールしてください。これらのテストには、段階的なトラフィックシフトと瞬時のフェイルオーバーの両方のシナリオを含める必要があります。バックアップシステムが想定される負荷に対応できること、およびフェイルオーバーインフラストラクチャ上ですべてのアプリケーション機能が意図したとおりに動作することを検証してください。.

地理的分布 フェイルオーバーバックエンドは、ゾーン全体の障害から保護します。バックアップサーバーを異なるアベイラビリティゾーンまたはリージョンに展開し、60~80%のピークトラフィックを処理できる能力を確保します。クラウド環境では、プライマリバックエンドとフェイルオーバーバックエンドを異なるゾーンに分離することで、リージョン全体の障害発生時でもサービスの可用性を維持できます。.

変更管理 アカウンタビリティを確保します。すべての構成変更を、更新理由を含めてログに記録します。「バックアップ容量の増加により、フェイルオーバー比率を0.6に更新しました」といった明確なコミットメッセージを使用することで、問題発生時のロールバックが容易になります。詳細なログはインシデント対応において非常に重要であり、予期しないフェイルオーバー動作を迅速に特定し、対処するのに役立ちます。.

監視統合 監視には不可欠です。フェイルオーバーの前後、最中、そして後に、応答時間の増加、エラー率の急上昇、接続の問題といった指標を追跡するためのアラートを設定しましょう。フェイルオーバー後の指標をフェイルオーバー前のベースラインと比較することで、設定の改善点を特定するのに役立ちます。.

トラブルシューティングとフェイルオーバー後の検証

手動フェイルオーバーを実行すると、予期せぬ問題が発生する可能性があり、迅速な特定と解決が求められます。これらの問題を迅速に解決することは、サービスの可用性を維持するために不可欠です。.

よくある問題と解決策

手動フェイルオーバー中に発生する可能性のある一般的な問題がいくつかあります。その対処方法を以下に示します。

レプリケーションエラー 頻繁に発生する課題です。これは、フェイルオーバー前にバックアップサーバーがプライマリサーバーと完全に同期されていない場合に発生し、データの不整合につながります。この問題を解決するには、レプリケーションを一時停止し、最新のスタンバイサーバーにリベースして昇格させます。.

構成の不一致 障害の原因となる場合もあります。例えば、プライマリサーバー向けに最適化されたヘルスチェック設定がバックアップサーバーと一致していない場合や、フェイルオーバーグループの設定が古いサーバーアドレスを指定している場合などです。このような場合は、フェイルオーバープロセスを一時停止し、すべての設定を確認してください。ヘルスチェック間隔がバックアップサーバーの応答時間と一致していることを確認し、フェイルオーバーグループのアドレスが正確で到達可能であることを確認してください。.

DNS伝播遅延 トラフィックが移行するはずだった後でも、ユーザーが障害が発生したサーバーに接続し続ける可能性があります。これは、TTL(Time to Live)設定が高い場合によく発生します。フェイルオーバー前にTTLを60秒に下げ、次のようなツールを使用して伝播を監視してください。 掘る または nslookup.

ネットワーク接続の問題 ロードバランサとバックアップサーバ間の通信がトラフィックのリダイレクトをブロックすることがあります。プライマリサーバ向けのファイアウォールルールの設定や、ネットワークテーブルにルートがないといった問題が、よくある原因です。 ピン そして テルネット 接続をテストし、必要に応じてファイアウォール ルールまたはルーティング テーブルを更新します。.

以下に、一般的な問題に関するクイック リファレンス テーブルを示します。

問題 原因 解決
レプリケーションエラー 同期されていないデータ、レプリケーションに失敗した フェイルオーバー前にレプリケーション、リベース、再同期を一時停止する
構成の不一致 フェイルオーバーまたはヘルスチェックの誤り 構成を確認して修正する
DNS伝播遅延 TTLが高く、DNS更新が遅い TTLを下げ、DNS更新を監視する
ネットワーク接続 ファイアウォールまたはルーティングの問題 ネットワークパスをテストおよび更新し、ファイアウォールルールを調整する
トラフィックがリダイレクトされない ヘルスチェックの設定ミス パラメータを調整し、バックアップサーバーの状態を検証する

これらの問題に迅速に対処することで、フェイルオーバー プロセスがスムーズになり、フェイルオーバー後の検証の準備が整います。.

フェイルオーバー後の検証チェックリスト

フェイルオーバーが完了したら、すべてが期待どおりに機能していることを確認するためにシステムを検証することが重要です。.

ヘルスチェックの検証 最初のステップとして、新しいプライマリサーバーでヘルスチェックが成功し、バックアップサーバーも正常であることを確認してください。アプリケーションレベルのエンドポイントとインフラストラクチャ監視ツールの両方を使用して、徹底的に監視してください。失敗したチェックがあれば、直ちに調査し、解決してください。.

トラフィックルーティングの確認 次は、ユーザー接続を監視して、バックアップサーバーに到達していることを確認してください。接続ログを確認し、現在のトラフィックパターンをフェイルオーバー前のベースラインと比較してください。障害が発生したサーバーにユーザーがルーティングされている場合は、DNSの伝播が不完全であるか、接続プールがキャッシュされている可能性があります。.

パフォーマンス監視 フェイルオーバー後の数時間は、バックアップサーバーのパフォーマンス特性がプライマリサーバーと異なる可能性があります。主要な指標を追跡し、フェイルオーバー前のベースラインと比較してください。大きな逸脱があった場合はアラートを設定し、パフォーマンスが低下した場合は、容量の追加やトラフィックの再配分を検討してください。.

システム機能テスト もう一つの重要なステップです。すべてのアプリケーション機能をテストし、データベース接続、外部API、セッション管理がバックアップサーバー上で正しく動作していることを確認してください。サーバー固有の設定やローカルファイルストレージに依存する機能は問題が発生しやすいため、特に注意が必要です。.

Serverionのようなホスティングプロバイダーをご利用の組織にとって、継続的なネットワーク監視は、この時期の救世主となり得ます。24時間体制のテクニカルサポートがあれば、あらゆる異常に即座に対応できます。.

元のサーバーの再統合 バックアップシステムが安定したら、次の作業を実施してください。元のプライマリサーバーを同期し、ヘルスチェックを実施し、バックアップとして再統合します。.

ドキュメントの更新 最後のステップです。トラブルシューティング中に行った変更を記録し、バックアップサーバーのパフォーマンスの違いを記録し、これらの経験に基づいてフェイルオーバー手順を改善してください。このドキュメントは、トレーニングや将来の復旧戦略の改善に不可欠です。.

最後に、インフラストラクチャが通常のトラフィック負荷に対応できる状態であること、そして監視システムが新しい構成を反映していることを確認してください。このプロアクティブなアプローチは、二次的な障害のリスクを最小限に抑え、システムの安定性を維持するのに役立ちます。.

結論

手動フェイルオーバーは、準備、実行、検証という明確なプロセスに従います。これらのステップをしっかりと実行できる組織は、予期せぬインフラ障害が発生した場合でも、サービスを円滑に稼働させることができます。.

準備は重要です。プレッシャーのかかる瞬間に不確実性を排除します。ヘルスチェックは早期警告システムとして機能しますが、手動介入により、自動システムでは実現できない柔軟なタイミング管理が可能になります。.

実行には正確さが求められます。トラフィックをリアルタイムでリダイレクトするには、スムーズな移行を確実にするために綿密な監視が必要です。設定の不一致やネットワークの問題といったよくある落とし穴は、事前に徹底したテストと検証を行うことで回避できます。.

フェイルオーバー後の検証も同様に重要です。バックアップサーバーはプライマリシステムとは異なる動作をすることがあり、フェイルオーバー後の数時間は隠れた問題が顕在化することが多い時間帯です。この期間中の継続的な監視は、システムの安定性を維持し、期待どおりに動作していることを保証するのに役立ちます。.

強力なインフラストラクチャは、効果的なフェイルオーバーをサポートします。例えば、Serverionは37のデータセンターからなるグローバルネットワークを基盤とし、99.99%の稼働率保証によるマルチリージョンフェイルオーバーを提供しています。24時間365日体制の監視と最大4TbpsのDDoS防御により、手動フェイルオーバーでは対応が難しいプライマリオペレーションとバックアップシナリオの両方に対応しています。.

マルチリージョンアーキテクチャの普及に伴い、地理的冗長性の価値が明確になっています。信頼性の高いホスティングソリューションと組み合わせることで、手動フェイルオーバーは依然としてコスト効率の高いアプローチとなります。フェイルオーバー戦略を常に的確に運用するには、定期的なテストと最新のドキュメントが不可欠です。.

よくある質問

ロードバランサーの自動フェイルオーバーではなく手動フェイルオーバーを選択する主な利点は何ですか?

ロードバランサーの手動フェイルオーバーは より大きな制御 重要な移行時に、管理者は自動化システムに頼るのではなく、状況を詳しく確認し、設定を再確認し、変更を加える前にすべてが適切に設定されていることを確認できます。この実践的なアプローチにより、自動化されたトリガーによって発生する可能性のある予期しない問題や中断を回避できます。.

特に役立つのは カスタマイズされた、または複雑な設定 独自の調整が必要になることがよくあります。プロセスを手動で管理することで、フェイルオーバー手順を特定のインフラストラクチャに合わせて調整し、よりスムーズで信頼性の高い移行を実現できます。.

組織はどのようにして、バックアップ サーバーが完全に同期され、フェールオーバー イベントの準備ができていることを確認できますか?

バックアップサーバーをフェイルオーバーに備えておくには、データレプリケーションがスムーズに実行され、最新の状態であることを定期的に確認することが重要です。つまり、同期プロセスにおける遅延やエラーを監視し、IPアドレスやファイアウォールルールなどの重要な設定がバックアップサーバーに正確に反映されていることを確認する必要があります。.

定期的なフェイルオーバーテストも必須です。フェイルオーバーシナリオをシミュレーションすることで、潜在的な問題が現実の問題となる前に発見し、解決することができます。明確かつ文書化されたプロセスを用意しておくことが重要です。 手動フェイルオーバー 移行をシームレスに行い、ダウンタイムを削減し、中断を最小限に抑えることができます。フェイルオーバーシステムの要求に対応できるホスティングソリューションとして、Serverionは、これらの要件を的確に満たすように設計された、高性能で安全なグローバル分散型データセンターを提供しています。.

ロードバランサーの手動フェイルオーバープロセス中にネットワークの問題が発生した場合はどうすればよいですか?

手動フェイルオーバープロセス中にネットワーク接続の問題が発生した場合は、ダウンタイムを可能な限り短縮するために、状況に系統的にアプローチすることが重要です。まず、プライマリロードバランサーとセカンダリロードバランサーの両方の設定を再確認することから始めましょう。フェイルオーバープロトコルが有効になっており、正常に機能していることを確認してください。IPアドレス、DNS設定、ルーティングテーブルにも特に注意してください。これらの設定ミスが問題の原因となる可能性があります。.

設定エラーの可能性がなくなったら、ネットワークトラフィックを注意深く監視してください。接続を阻害している可能性のあるハードウェア障害やボトルネックの兆候がないか確認してください。問題が続く場合は、影響を受けたシステムを再起動するか、正常に動作しているロードバランサーにトラフィックを手動でリダイレクトする必要があるかもしれません。プロセス全体を通して、実行した手順を詳細に記録し、問題が解決したらフェイルオーバーシステムを徹底的にテストし、すべてが期待どおりに動作していることを確認してください。.

関連ブログ投稿

ja