Contacteu-nos

info@serverion.com

Passos manuals de la prova de failover

Passos manuals de la prova de failover

Les proves manuals de failover garanteixen que els vostres sistemes puguin canviar a còpies de seguretat durant les interrupcions o el manteniment sense interrompre les operacions. Aquí teniu una visió general ràpida del procés:

  • Per què és important: Proveu els passos de recuperació, confirmeu la capacitat de còpia de seguretat, entreneu equips i eviteu problemes futurs.
  • Planificació: establiu objectius (p. ex., temps d'inactivitat inferior a 15 minuts), trieu sistemes crítics (bases de dades, aplicacions) i programeu proves durant les hores baixes.
  • Preparació: Verifiqueu la preparació del sistema, la sincronització de dades, les còpies de seguretat i la connectivitat de xarxa.
  • Execució: Seguiu un pla de migració per error pas a pas, superviseu els registres i valideu els sistemes de còpia de seguretat i la funcionalitat de l'aplicació.
  • Recuperació: Torneu al sistema principal després de la prova, confirmeu la coherència de les dades i documenteu els resultats per a millores futures.

Aquest procés minimitza el temps d'inactivitat, garanteix la integritat de les dades i prepara el vostre equip per a incidents reals. Les proves periòdiques (cada tres mesos) i la documentació refinada poden fer que la vostra estratègia de failover sigui més fiable.

Prova d'un flux de treball de failover

Planificació de la prova de failover

Una planificació acurada garanteix una interrupció mínima i confirma la resistència del sistema durant les proves manuals de failover. A continuació s'explica com establir objectius, triar sistemes, programar la prova i preparar la documentació.

Establiment d'objectius de prova

Definiu objectius clars per a la recuperació de desastres, com ara:

  • Temps d'inactivitat màxim permès durant la migració per error (apunta a menys de 15 minuts)
  • Verificació de la coherència de les dades entre els sistemes
  • Assegurar la funcionalitat de l'aplicació després de la migració per error
  • Mesurar el rendiment de la xarxa
  • Confirmació de l'accés i autenticació de l'usuari

Selecció de sistemes de prova

Centra't en els sistemes essencials, com ara:

  • Servidors de bases de dades primaris
  • Aplicacions orientades al client
  • Eines internes per a les operacions empresarials
  • Sistemes d'autenticació
  • Infraestructura de xarxa bàsica

Utilitzeu un mapa de dependències per entendre les interaccions del sistema. Això us ajuda a decidir quins components s'han de provar junts i quins es poden aïllar.

Horari de proves i actualitzacions de l'equip

Planifiqueu les proves durant les hores baixes i tingueu en compte el següent:

  • Finestres de manteniment: Alineeu les proves amb els temps de manteniment preprogramats.
  • Zones horàries: Teniu en compte les ubicacions de l'equip global i els horaris comercials variables.
  • Disponibilitat de recursos: Assegureu-vos que els membres clau de l'equip estiguin disponibles per a tota la prova.
  • Calendari empresarial: Eviteu períodes ocupats com el processament de finals de mes.

Notifiqueu a les parts interessades el calendari de proves amb almenys dues setmanes d'antelació. Inclou detalls com:

  • Temps d'inactivitat del sistema previst
  • Possibles interrupcions del servei
  • Informació de contacte d'emergència
  • Procediments de retrocés

Redacció del pla de proves

Un pla de proves exhaustiu ha d'incloure:

1. Llista de verificació prèvia a la fallada

Enumereu tots els passos preparatoris, com ara la còpia de seguretat dels sistemes, la verificació de la sincronització de dades i l'assignació de recursos.

2. Passos d'execució

Descriu la seqüència exacta d'accions per a la migració per error. Inclou ordres, canvis de configuració i punts de validació.

3. Criteris d'èxit

Definiu mètriques per mesurar l'èxit, com ara:

  • Temps de resposta del sistema
  • Comprovacions de la integritat de les dades
  • Proves de funcionalitat de l'aplicació
  • Validació d'accés d'usuari

4. Procediments de retrocés

Proporcioneu passos detallats per tornar al sistema principal si es produeixen problemes. Especifiqueu les condicions que desencadenarien una retrocés.

Comprovacions de la preparació del sistema

Abans d'iniciar la prova de failover, és crucial confirmar que tots els components clau estan al seu lloc. Això ajuda a crear condicions de prova òptimes i redueix el risc de problemes inesperats. Centreu-vos a revisar les configuracions del sistema, comprovar la sincronització de dades, assegurar-vos que les còpies de seguretat siguin saludables i provar la connectivitat de la xarxa.

Revisió de la configuració del sistema

Comenceu verificant la configuració actual del sistema:

  • Comproveu les assignacions de CPU, memòria i emmagatzematge.
  • Confirmeu que s'estan executant tots els serveis necessaris.
  • Verificar permisos i controls d'accés.
  • Comproveu la configuració de seguretat.
  • Assegureu-vos eines de seguiment estan configurats correctament.

Enregistreu aquestes configuracions, inclosos els números de versió, els nivells de pedaç i la configuració, perquè pugueu validar-les després de la prova de migració per error. Aquests passos garanteixen que el sistema estigui preparat per a la prova.

Estat de sincronització de dades

Després de revisar les configuracions del sistema, confirmeu que la sincronització de dades funciona com s'esperava:

  • Mesura el retard de replicació.
  • Comproveu la coherència de la base de dades.
  • Comproveu la sincronització del sistema de fitxers.
  • Valideu la integritat de les dades mitjançant sumes de comprovació.

Centra't en els indicadors de sincronització en temps real. Per a la majoria d'aplicacions empresarials, el retard de replicació hauria de ser inferior a 60 segons. Això garanteix que les dades estiguin a punt per a la prova de failover.

Comprovació del sistema de còpia de seguretat

Inspeccioneu a fons el sistema de còpia de seguretat per confirmar que està llest:

Maquinari:

  • Comproveu els sistemes d'alimentació i refrigeració.
  • Assegureu-vos que la capacitat d'emmagatzematge i el rendiment compleixin els requisits.
  • Verifiqueu les targetes d'interfície de xarxa.
  • Inspeccioneu components redundants.

Programari:

  • Avaluar la salut del sistema operatiu.
  • Confirmeu que les dependències de l'aplicació funcionen.
  • Comproveu les eines i les utilitats de còpia de seguretat.
  • Validació dels agents de seguiment.

Controls d'accés:

  • Prova els sistemes d'autenticació.
  • Revisar els permisos dels usuaris.
  • Confirmeu que els certificats de seguretat són vàlids.
  • Verifiqueu les connexions VPN.

Aquestes comprovacions asseguren que el sistema de còpia de seguretat està completament operatiu i preparat per a la prova de failover.

Comprovació de la xarxa

Avalueu la connectivitat de xarxa utilitzant els criteris següents:

Tipus de prova Criteris d'acceptació Mètode
Latència Menys de 50 ms Proves de ping
Ample de banda Més d'1 Gbps prova iperf3
Resolució DNS Menys de 100 ms dig/nslookup
Equilibrador de càrrega Estat actiu/passiu Controls de salut

Executeu aquestes proves des de diferents segments de xarxa per assegurar-vos que es cobreixen tots els possibles camins de migració per error. Documenteu les mètriques de rendiment de referència per comparar-les durant i després del procés de migració per error.

A més, comproveu que les rutes de xarxa redundants estiguin configurades i disponibles. Proveu la migració automàtica per error per als components de xarxa, si escau, i assegureu-vos que tots els ports i protocols necessaris estiguin oberts entre el lloc principal i el de còpia de seguretat.

Execució de la prova de failover

Després de completar les comprovacions de preparació, continueu amb el procés de migració per error amb cura per reduir les possibles interrupcions.

Inicia el failover

  • Notificar als interessats amb almenys 15 minuts d'antelació.
  • Posa en pausa totes les transaccions i confirma que no hi ha cap retard de replicació.
  • Comenceu la seqüència de migració per error i registreu l'hora d'inici exacta.

Estigueu atents a com respon el sistema inicialment. El procés de migració per error sol trigar entre 30 i 45 segons. Si triga més, investigueu immediatament. Un cop iniciat el procés, centreu-vos en la supervisió del registre en temps real per identificar qualsevol problema a mesura que sorgeixi.

Mireu els registres del sistema

La supervisió dels registres del sistema és crucial per detectar problemes aviat:

Tipus de registre Senyals d'advertència Alertes crítiques
Aplicació Temps d'espera de connexió Falles de servei
Base de dades Errors de replicació Corrupció de dades
Xarxa Pèrdua de paquets > 1% Errors de connexió
Seguretat Retards en l'autenticació Infraccions d'accés

Mantingueu oberta la interfície de línia d'ordres (CLI) per fer un seguiment dels missatges en temps real. Presteu més atenció als codis d'error que comencen per "FAIL" o "ERR", ja que sovint indiquen problemes urgents que necessiten atenció immediata.

Comproveu el lloc de còpia de seguretat

Després d'iniciar la migració per error, confirmeu que el lloc de còpia de seguretat funciona correctament:

1. Disponibilitat del servei

Assegureu-vos que tots els serveis bàsics del lloc de còpia de seguretat mostrin l'estat "ACTIV" en 60 segons. Tingueu en compte els retards per a la revisió.

2. Ús dels recursos

Superviseu aquestes mètriques crítiques durant la transició:

  • Ús de la CPU: hauria de romandre per sota de 80%.
  • Ús de memòria: Apunteu a una utilització inferior a 75%.
  • E/S d'emmagatzematge: mantenir-lo per sota de 2.000 IOPS.
  • Rendiment de xarxa: Espereu un ús a 40-60% dels nivells normals.

3. Distribució de càrrega

Verifiqueu que el trànsit s'està encaminant correctament al lloc de còpia de seguretat. Comproveu les mètriques de l'equilibrador de càrrega per assegurar-vos que el trànsit es distribueix uniformement entre els recursos disponibles.

Prova aplicacions i dades

Proveu immediatament les aplicacions clau i valideu la integritat de les dades:

  • Prova d'aplicacions bàsiques: Realitzeu operacions CRUD bàsiques, proveu l'autenticació dels usuaris, comproveu els fluxos de treball crítics de l'empresa i confirmeu la resposta de l'API.
  • Validació de dades: Assegureu-vos la coherència de la base de dades, verifiqueu la integritat del sistema de fitxers, confirmeu les transaccions recents i proveu la velocitat de recuperació de dades.

Centreu-vos a provar aplicacions de missió crítica primer abans de passar als sistemes secundaris. Documenteu qualsevol irregularitat, com ara els temps de resposta que es desvien més de 20% de les mesures de referència.

Prova després del failover

Un cop el lloc de còpia de seguretat estigui en funcionament, el següent pas és assegurar-se que les funcions empresarials essencials funcionen correctament. Això implica revisar i verificar acuradament les operacions per confirmar que tot funciona com cal.

Comprovació de la funció empresarial

  • Executeu un cicle de transaccions comercials complet per confirmar els fluxos de treball i el flux de dades sense problemes, incloses les integracions externes.
  • Proveu les connexions clau amb sistemes externs que no es van cobrir durant les proves anteriors de l'aplicació.
  • Assegureu-vos que totes les tasques programades s'executen a temps.
  • Comproveu l'exactitud del sistema d'informes per evitar discrepàncies.

Aquests passos ajuden a confirmar que l'entorn de còpia de seguretat pot gestionar operacions crítiques sense interrupcions. L'execució d'aquestes validacions diverses vegades garanteix un rendiment coherent i us permet resoldre ràpidament qualsevol problema.

Torneu al sistema principal

Després de confirmar que el sistema de còpia de seguretat funciona correctament, és hora de tornar al sistema principal. Això implica invertir els passos anteriors per restablir el funcionament normal.

Inicieu el procés de devolució

Notificar a totes les parts interessades rellevants i coordinar-se amb l'equip tècnic. Prepareu una llista de verificació per fer un seguiment de cada pas del procés, inclosa la sincronització de la base de dades i el temps de canvi d'aplicació.

Assegureu-vos de:

  • Confirmeu que tots els processos crítics s'han completat.
  • Assegureu-vos que no hi hagi transaccions pendents.
  • Documenteu les regles d'encaminament temporals com a referència durant la reversió.
  • Comproveu que les operacions del sistema funcionin com s'esperava.

Verifiqueu la sincronització de dades

Assegureu-vos la coherència de les dades entre els sistemes comprovant:

  • Reproducció precisa dels registres de transaccions de la base de dades.
  • Sincronització completa dels canvis del sistema de fitxers.
  • Alineació dels registres marcats amb l'hora entre els sistemes.
  • Eliminació dels fitxers temporals utilitzats durant la migració per error.

Utilitzeu eines com sumes de control o programari de comparació per confirmar que totes les dades modificades durant la migració per error coincideixen entre els sistemes abans de procedir amb el canvi final.

Inspeccioneu el sistema primari

Feu un control de salut exhaustiu per confirmar que el sistema primari està preparat:

  1. Estat de la infraestructura: Verifiqueu que tots els components de maquinari estiguin operatius.
  2. Connectivitat de xarxa: Comproveu i confirmeu les configuracions d'encaminament adequades.
  3. Serveis d'aplicacions: Inicieu els serveis d'aplicacions en la seqüència correcta.
  4. Sistemes de seguretat: Assegureu-vos que totes les mesures de seguretat estiguin actives i funcionin.

Documentar els resultats

Un cop el sistema primari estigui completament restaurat, registreu els resultats per refinar els processos futurs:

  1. mètriques de prova
    Registre mètriques clau, com ara la durada de la migració per error, el temps de sincronització de dades, el recompte de problemes i les comparacions de rendiment.
  2. Documentació d'emissió
    • Anoteu els missatges d'error i les seves resolucions.
    • Detallar els passos de resolució de problemes realitzats.
    • Avalueu l'impacte empresarial del failover.
  3. Àrees de millora
    • Identificar ineficiències o colls d'ampolla del procés.
    • Ressaltar les llacunes en la comunicació.
    • Assenyala les àrees on es podria millorar la documentació.
    • Resoldre qualsevol limitació tècnica que es trobi.

Emmagatzemeu tota la documentació en una ubicació centralitzada a la qual l'equip de recuperació de desastres pugui accedir per a una referència futura.

Resum

Les proves manuals de failover implica una planificació acurada, comprovacions exhaustives, una execució precisa i un procés de recuperació sense problemes. Aquí teniu un desglossament de les fases clau:

  • Planificació: Definir objectius, mapejar dependències, assignar rols i abordar els riscos potencials.
  • Verificació: Assegureu-vos que la infraestructura estigui preparada, que les dades estiguin sincronitzades, que les xarxes estiguin connectades i que la seguretat estigui intacta.
  • Execució: Realitzeu la migració per error pas a pas, feu un seguiment en temps real, comproveu la funcionalitat de l'aplicació i feu un seguiment de les mètriques de rendiment.
  • Recuperació: Restaureu els sistemes primaris, confirmeu que les dades són precises, assegureu-vos que els serveis s'executen i documenteu tot el procés.

Per millorar les proves de failover:

  • Programeu proves cada tres mesos.
  • Mantenir la documentació actualitzada.
  • Roteu les responsabilitats de l'equip per generar experiència.
  • Avalueu i perfeccioneu el vostre procés després de cada prova.

Una prova de failover ben executada reforça la vostra capacitat per mantenir les operacions empresarials durant les interrupcions. La simulació d'escenaris realistes en un entorn controlat garanteix resultats fiables sense posar en risc els vostres sistemes de producció.

Publicacions de bloc relacionades

ca