Contactez nous

info@serverion.com

Appelez nous

+1 (302) 380 3902

Étapes du test de basculement manuel

Étapes du test de basculement manuel

Les tests de basculement manuels garantissent que vos systèmes peuvent basculer vers des sauvegardes en cas de panne ou de maintenance, sans perturber leurs opérations. Voici un bref aperçu du processus :

  • Pourquoi c'est important: Testez les étapes de récupération, confirmez la capacité de sauvegarde, formez les équipes et prévenez les problèmes futurs.
  • Planification:Fixez des objectifs (par exemple, un temps d'arrêt inférieur à 15 minutes), choisissez des systèmes critiques (bases de données, applications) et planifiez des tests pendant les heures creuses.
  • Préparation:Vérifiez la préparation du système, la synchronisation des données, les sauvegardes et la connectivité réseau.
  • Exécution:Suivez un plan de basculement étape par étape, surveillez les journaux et validez les systèmes de sauvegarde et les fonctionnalités des applications.
  • Récupération:Revenez au système principal après les tests, confirmez la cohérence des données et documentez les résultats pour les améliorations futures.

Ce processus minimise les temps d'arrêt, garantit l'intégrité des données et prépare votre équipe aux incidents réels. Des tests réguliers (tous les trois mois) et une documentation précise peuvent renforcer la fiabilité de votre stratégie de basculement.

Tester un workflow de basculement

Planification du test de basculement

Une planification minutieuse garantit une interruption minimale et confirme la résilience du système lors des tests de basculement manuels. Voici comment définir des objectifs, choisir les systèmes, planifier le test et préparer la documentation.

Définition des objectifs de test

Définir des objectifs clairs pour la reprise après sinistre, tels que :

  • Temps d'arrêt maximal autorisé pendant le basculement (visez moins de 15 minutes)
  • Vérification de la cohérence des données entre les systèmes
  • Assurer la fonctionnalité de l'application après le basculement
  • Mesurer les performances du réseau
  • Confirmation de l'accès et de l'authentification des utilisateurs

Sélection des systèmes de test

Concentrez-vous sur les systèmes essentiels, notamment :

  • Serveurs de bases de données primaires
  • Applications orientées client
  • Outils internes pour les opérations commerciales
  • Systèmes d'authentification
  • Infrastructure de réseau de base

Utilisez une carte de dépendances pour comprendre les interactions du système. Cela vous aide à déterminer quels composants doivent être testés ensemble et lesquels peuvent être isolés.

Calendrier des tests et mises à jour de l'équipe

Planifiez les tests en dehors des heures de pointe et tenez compte des éléments suivants :

  • Fenêtres de maintenance: Alignez les tests avec les temps de maintenance pré-programmés.
  • Fuseaux horaires: Tenez compte des emplacements des équipes dans le monde entier et des horaires d’ouverture variables.
  • Disponibilité des ressources: Assurez-vous que les membres clés de l’équipe sont disponibles pendant toute la durée du test.
  • Calendrier des affaires: Évitez les périodes de pointe comme le traitement de fin de mois.

Informez les parties prenantes du calendrier des tests au moins deux semaines à l'avance. Incluez des détails tels que :

  • Temps d'arrêt anticipé du système
  • Interruptions de service possibles
  • Coordonnées d'urgence
  • Procédures de restauration

Rédaction du plan de test

Un plan de test complet doit inclure :

1. Liste de contrôle avant basculement

Répertoriez toutes les étapes préparatoires, telles que la sauvegarde des systèmes, la vérification de la synchronisation des données et l’allocation des ressources.

2. Étapes d'exécution

Décrivez la séquence exacte des actions de basculement. Incluez les commandes, les modifications de configuration et les points de validation.

3. Critères de réussite

Définir des indicateurs pour mesurer le succès, tels que :

  • Temps de réponse du système
  • Contrôles d'intégrité des données
  • Tests de fonctionnalité des applications
  • Validation de l'accès utilisateur

4. Procédures de restauration

Fournissez des étapes détaillées pour revenir au système principal en cas de problème. Précisez les conditions qui déclencheraient une restauration.

Vérifications de préparation du système

Avant de lancer le test de basculement, il est essentiel de vérifier que tous les composants clés sont en place. Cela permet de créer des conditions de test optimales et de réduire le risque de problèmes inattendus. Concentrez-vous sur la vérification des configurations système, la vérification de la synchronisation des données, l'intégrité des sauvegardes et le test de la connectivité réseau.

Examen de la configuration du système

Commencez par vérifier la configuration actuelle du système :

  • Vérifiez les allocations de CPU, de mémoire et de stockage.
  • Confirmez que tous les services nécessaires sont en cours d’exécution.
  • Vérifiez les autorisations et les contrôles d’accès.
  • Vérifiez à nouveau les paramètres de sécurité.
  • S'assurer outils de surveillance sont correctement configurés.

Enregistrez ces configurations, y compris les numéros de version, les niveaux de correctifs et les paramètres, afin de pouvoir les valider après le test de basculement. Ces étapes garantissent que le système est prêt pour les tests.

État de synchronisation des données

Après avoir examiné les configurations du système, confirmez que la synchronisation des données fonctionne comme prévu :

  • Mesurer le décalage de réplication.
  • Vérifier la cohérence de la base de données.
  • Vérifier la synchronisation du système de fichiers.
  • Valider l’intégrité des données à l’aide de sommes de contrôle.

Concentrez-vous sur les indicateurs de synchronisation en temps réel. Pour la plupart des applications métier, le délai de réplication doit être inférieur à 60 secondes. Cela garantit que les données sont prêtes pour le test de basculement.

Vérification du système de sauvegarde

Inspectez soigneusement le système de sauvegarde pour confirmer qu'il est prêt :

Matériel:

  • Vérifiez les systèmes d’alimentation et de refroidissement.
  • Assurez-vous que la capacité de stockage et les performances répondent aux exigences.
  • Vérifiez les cartes d’interface réseau.
  • Inspecter les composants redondants.

Logiciel:

  • Évaluer la santé du système d’exploitation.
  • Confirmez que les dépendances de l’application fonctionnent.
  • Vérifiez les outils et utilitaires de sauvegarde.
  • Valider les agents de surveillance.

Contrôles d'accès :

  • Tester les systèmes d'authentification.
  • Examiner les autorisations des utilisateurs.
  • Confirmer que les certificats de sécurité sont valides.
  • Vérifiez les connexions VPN.

Ces vérifications garantissent que le système de sauvegarde est entièrement opérationnel et prêt pour le test de basculement.

Vérification du réseau

Évaluez la connectivité du réseau à l’aide des critères suivants :

Type de test Critères d'acceptation Méthode
Latence Moins de 50 ms Tests de ping
Bande passante Plus de 1 Gbit/s Test iperf3
Résolution DNS Moins de 100 ms creuser/nslookup
Équilibreur de charge Statut actif/passif Contrôles de santé

Exécutez ces tests sur différents segments de réseau pour vous assurer que tous les chemins de basculement potentiels sont couverts. Documentez les indicateurs de performance de base pour comparaison pendant et après le basculement.

Vérifiez également que les chemins réseau redondants sont configurés et disponibles. Testez le basculement automatique des composants réseau, le cas échéant, et assurez-vous que tous les ports et protocoles requis sont ouverts entre les sites principal et de secours.

Exécution du test de basculement

Une fois les vérifications de préparation terminées, procédez soigneusement au processus de basculement afin de réduire les éventuelles perturbations.

Démarrer le basculement

  • Prévenez les parties prenantes au moins 15 minutes à l’avance.
  • Mettez en pause toutes les transactions et confirmez qu’il n’y a pas de décalage de réplication.
  • Commencez la séquence de basculement et enregistrez l’heure de début exacte.

Surveillez attentivement la réaction initiale du système. Le basculement prend généralement entre 30 et 45 secondes. Si cela prend plus de temps, examinez la situation immédiatement. Une fois le processus lancé, concentrez-vous sur la surveillance des journaux en temps réel afin d'identifier les problèmes dès leur apparition.

Surveiller les journaux système

La surveillance des journaux système est essentielle pour détecter les problèmes à un stade précoce :

Type de journal Signes d'avertissement Alertes critiques
Application Délais d'expiration de connexion Pannes de service
Base de données Erreurs de réplication Corruption des données
Réseau Perte de paquets > 1% Échecs de connexion
Sécurité Délais d'authentification Violations d'accès

Gardez l'interface de ligne de commande (CLI) ouverte pour suivre les messages en temps réel. Soyez particulièrement attentif aux codes d'erreur commençant par « FAIL » ou « ERR », car ils signalent souvent des problèmes urgents nécessitant une intervention immédiate.

Vérifier le site de sauvegarde

Après avoir lancé le basculement, vérifiez que le site de sauvegarde fonctionne correctement :

1. Disponibilité du service

Assurez-vous que tous les services principaux du site de secours affichent le statut « ACTIF » dans les 60 secondes. Notez tout retard pour vérification.

2. Utilisation des ressources

Surveillez ces indicateurs critiques pendant la transition :

  • Utilisation du processeur: Devrait rester en dessous de 80%.
  • Utilisation de la mémoire: Visez une utilisation inférieure à 75%.
  • E/S de stockage: Gardez-le en dessous de 2 000 IOPS.
  • Débit du réseau: Prévoyez une utilisation à 40-60% des niveaux normaux.

3. Répartition de la charge

Vérifiez que le trafic est correctement acheminé vers le site de secours. Vérifiez les métriques de l'équilibreur de charge pour vous assurer que le trafic est réparti uniformément entre les ressources disponibles.

Tester les applications et les données

Testez immédiatement les applications clés et validez l’intégrité des données :

  • Tests d'applications de base: Effectuez des opérations CRUD de base, testez l'authentification des utilisateurs, vérifiez les flux de travail commerciaux critiques et confirmez la réactivité de l'API.
  • Validation des données:Assurez la cohérence de la base de données, vérifiez l'intégrité du système de fichiers, confirmez les transactions récentes et testez les vitesses de récupération des données.

Concentrez-vous d'abord sur les tests des applications critiques avant de passer aux systèmes secondaires. Documentez toute anomalie, comme des temps de réponse qui s'écartent de plus de 20% par rapport aux mesures de référence.

Test après basculement

Une fois le site de secours opérationnel, l'étape suivante consiste à s'assurer du bon fonctionnement des fonctions essentielles de l'entreprise. Cela implique de vérifier et de contrôler minutieusement les opérations afin de confirmer que tout fonctionne correctement.

Vérification de la fonction commerciale

  • Exécutez un cycle complet de transactions commerciales pour confirmer les flux de travail et le flux de données de manière transparente, y compris les intégrations externes.
  • Testez les connexions clés avec des systèmes externes qui n'ont pas été couverts lors des tests d'application précédents.
  • Assurez-vous que toutes les tâches planifiées sont exécutées à temps.
  • Vérifiez l’exactitude du système de reporting pour éviter toute divergence.

Ces étapes permettent de vérifier que l'environnement de sauvegarde peut gérer les opérations critiques sans interruption. L'exécution répétée de ces validations garantit des performances constantes et permet de résoudre rapidement tout problème.

Revenir au système principal

Après avoir vérifié le bon fonctionnement du système de sauvegarde, il est temps de revenir au système principal. Cela implique d'inverser les étapes précédentes pour rétablir le fonctionnement normal.

Démarrer le processus de retour

Informez toutes les parties prenantes concernées et coordonnez-vous avec l'équipe technique. Préparez une liste de contrôle pour suivre chaque étape du processus, y compris la synchronisation des bases de données et le calendrier de basculement des applications.

Assurez-vous de :

  • Confirmez que tous les processus critiques sont terminés.
  • Assurez-vous qu'aucune transaction ne reste en attente.
  • Documentez les règles de routage temporaires pour référence lors de l'inversion.
  • Vérifiez que les opérations du système fonctionnent comme prévu.

Vérifier la synchronisation des données

Assurez la cohérence des données entre les systèmes en vérifiant :

  • Relecture précise des journaux de transactions de la base de données.
  • Synchronisation complète des modifications du système de fichiers.
  • Alignement des enregistrements horodatés sur les différents systèmes.
  • Suppression des fichiers temporaires utilisés lors du basculement.

Utilisez des outils tels que des sommes de contrôle ou des logiciels de comparaison pour confirmer que toutes les données modifiées pendant le basculement correspondent entre les systèmes avant de procéder au basculement final.

Inspecter le système primaire

Effectuez un contrôle de santé approfondi pour confirmer que le système principal est prêt :

  1. État des infrastructures: Vérifiez que tous les composants matériels sont opérationnels.
  2. Connectivité réseau: Vérifiez et confirmez les configurations de routage appropriées.
  3. Services d'application: Démarrez les services d’application dans la séquence correcte.
  4. Systèmes de sécurité:Assurez-vous que toutes les mesures de sécurité sont actives et fonctionnelles.

Documenter les résultats

Une fois le système principal entièrement restauré, enregistrez les résultats pour affiner les processus futurs :

  1. Mesures de test
    Enregistrez les indicateurs clés tels que la durée du basculement, le temps de synchronisation des données, le nombre de problèmes et les comparaisons de performances.
  2. Documentation sur les problèmes
    • Notez tous les messages d’erreur et leurs résolutions.
    • Détail des étapes de dépannage prises.
    • Évaluer l’impact commercial du basculement.
  3. Domaines d'amélioration
    • Identifier les inefficacités ou les goulots d’étranglement des processus.
    • Mettre en évidence les lacunes dans la communication.
    • Indiquez les domaines dans lesquels la documentation pourrait être améliorée.
    • Répondre à toutes les contraintes techniques rencontrées.

Stockez toute la documentation dans un emplacement centralisé auquel l’équipe de reprise après sinistre peut accéder pour référence ultérieure.

Résumé

Les tests de basculement manuels nécessitent une planification minutieuse, des vérifications approfondies, une exécution précise et un processus de récupération fluide. Voici un aperçu des phases clés :

  • Planification: Définissez des objectifs, cartographiez les dépendances, attribuez des rôles et gérez les risques potentiels.
  • Vérification: Assurez-vous que l’infrastructure est prête, que les données sont synchronisées, que les réseaux sont connectés et que la sécurité est intacte.
  • Exécution: Effectuez le basculement étape par étape, surveillez en temps réel, vérifiez la fonctionnalité de l'application et suivez les mesures de performance.
  • Récupération: Restaurez les systèmes principaux, confirmez l'exactitude des données, assurez-vous que les services fonctionnent et documentez l'ensemble du processus.

Pour améliorer vos tests de basculement :

  • Planifiez des tests tous les trois mois.
  • Maintenir la documentation à jour.
  • Faites tourner les responsabilités de l’équipe pour développer l’expertise.
  • Évaluez et affinez votre processus après chaque test.

Un test de basculement bien exécuté renforce votre capacité à maintenir vos activités en cas de perturbation. La simulation de scénarios réalistes dans un environnement contrôlé garantit des résultats fiables sans mettre en danger vos systèmes de production.

Articles de blog associés

fr_FR