Pașii de testare manuală a failoverului
Testarea manuală a failover-ului asigură că sistemele dumneavoastră pot trece la copii de rezervă în timpul întreruperilor sau întreținerii fără a întrerupe operațiunile. Iată o prezentare rapidă a procesului:
- De ce este important: testați pașii de recuperare, confirmați capacitatea de rezervă, instruiți echipele și preveniți problemele viitoare.
- Planificare: stabiliți obiective (de exemplu, timp de nefuncționare sub 15 minute), alegeți sisteme critice (baze de date, aplicații) și programați teste în timpul orelor de vârf.
- Pregătirea: Verificați pregătirea sistemului, sincronizarea datelor, backup-urile și conectivitatea la rețea.
- Execuţie: Urmați un plan de failover pas cu pas, monitorizați jurnalele și validați sistemele de rezervă și funcționalitatea aplicației.
- Recuperare: Reveniți la sistemul principal după testare, confirmați consistența datelor și documentați rezultatele pentru îmbunătățiri viitoare.
Acest proces minimizează timpul de nefuncționare, asigură integritatea datelor și vă pregătește echipa pentru incidente reale. Testele regulate (la fiecare trei luni) și documentația rafinată vă pot face strategia de failover mai fiabilă.
Testarea unui flux de lucru de failover
Planificarea testului de failover
Planificarea atentă asigură întreruperi minime și confirmă rezistența sistemului în timpul testelor manuale de failover. Iată cum să stabiliți obiective, să alegeți sistemele, să programați testul și să pregătiți documentația.
Stabilirea obiectivelor de testare
Definiți obiective clare pentru recuperarea în caz de dezastru, cum ar fi:
- Timp de nefuncționare maxim permis în timpul transferului la eroare (țintați pentru mai puțin de 15 minute)
- Verificarea coerenței datelor între sisteme
- Asigurarea funcționalității aplicației după failover
- Măsurarea performanței rețelei
- Confirmarea accesului și autentificarea utilizatorului
Selectarea sistemelor de testare
Concentrați-vă pe sistemele esențiale, inclusiv:
- Servere de baze de date primare
- Aplicații orientate către clienți
- Instrumente interne pentru operațiunile de afaceri
- Sisteme de autentificare
- Infrastructura rețelei de bază
Utilizați o hartă a dependențelor pentru a înțelege interacțiunile sistemului. Acest lucru vă ajută să decideți ce componente trebuie testate împreună și care pot fi izolate.
Programul de testare și actualizările echipei
Planificați testele în timpul orelor de vârf și luați în considerare următoarele:
- Ferestre de întreținere: Aliniați testele cu perioadele de întreținere preprogramate.
- Fusuri orare: Luați în considerare locațiile echipelor globale și orele de lucru diferite.
- Disponibilitatea resurselor: Asigurați-vă că membrii cheie ai echipei sunt disponibili pentru întregul test.
- Calendar de afaceri: evitați perioadele aglomerate, cum ar fi procesarea la sfârșitul lunii.
Notificați părțile interesate despre programul de testare cu cel puțin două săptămâni înainte. Includeți detalii precum:
- Timp de nefuncţionare anticipat al sistemului
- Posibile întreruperi ale serviciului
- Informații de contact în caz de urgență
- Proceduri de rollback
Redactarea planului de testare
Un plan de testare amănunțit ar trebui să includă:
1. Lista de verificare pre-failover
Enumerați toți pașii pregătitori, cum ar fi copierea de rezervă a sistemelor, verificarea sincronizării datelor și alocarea resurselor.
2. Etapele de execuție
Descrieți secvența exactă de acțiuni pentru failover. Includeți comenzi, modificări de configurare și puncte de validare.
3. Criterii de succes
Definiți valori pentru a măsura succesul, cum ar fi:
- Timpii de răspuns ale sistemului
- Verificări de integritate a datelor
- Teste de funcționalitate a aplicației
- Validarea accesului utilizatorului
4. Proceduri de retragere
Furnizați pași detaliați pentru revenirea la sistemul principal dacă apar probleme. Specificați condițiile care ar declanșa o retragere.
Verificări de pregătire a sistemului
Înainte de a începe testul de failover, este esențial să confirmați că toate componentele cheie sunt la locul lor. Acest lucru ajută la crearea condițiilor optime de testare și reduce riscul problemelor neașteptate. Concentrați-vă pe revizuirea configurațiilor sistemului, verificarea sincronizării datelor, asigurarea faptului că backup-urile sunt sănătoase și testarea conectivității la rețea.
Revizuirea setării sistemului
Începeți prin a verifica configurația curentă a sistemului:
- Verificați alocările CPU, memorie și stocare.
- Confirmați că funcționează toate serviciile necesare.
- Verificați permisiunile și controalele de acces.
- Verificați setările de securitate.
- Asigurați-vă că instrumente de monitorizare sunt configurate corect.
Înregistrați aceste configurații, inclusiv numerele de versiune, nivelurile de corecție și setările, astfel încât să le puteți valida după testul de failover. Acești pași asigură că sistemul este pregătit pentru testare.
Starea de sincronizare a datelor
După examinarea configurațiilor sistemului, confirmați că sincronizarea datelor funcționează conform așteptărilor:
- Măsurați decalajul de replicare.
- Verificați consistența bazei de date.
- Verificați sincronizarea sistemului de fișiere.
- Validați integritatea datelor folosind sume de control.
Concentrați-vă pe indicatorii de sincronizare în timp real. Pentru majoritatea aplicațiilor de afaceri, decalajul de replicare ar trebui să fie sub 60 de secunde. Acest lucru asigură că datele sunt gata pentru testul de failover.
Verificarea sistemului de rezervă
Inspectați cu atenție sistemul de rezervă pentru a confirma că este gata:
Hardware:
- Verificați sistemele de alimentare și răcire.
- Asigurați-vă că capacitatea de stocare și performanța respectă cerințele.
- Verificați plăcile de interfață de rețea.
- Inspectați componentele redundante.
Software:
- Evaluați starea de sănătate a sistemului de operare.
- Confirmați că dependențele aplicației funcționează.
- Verificați instrumentele și utilitățile de rezervă.
- Validați agenții de monitorizare.
Controale acces:
- Testați sistemele de autentificare.
- Examinați permisiunile utilizatorului.
- Confirmați că certificatele de securitate sunt valabile.
- Verificați conexiunile VPN.
Aceste verificări asigură că sistemul de rezervă este complet operațional și gata pentru testul de failover.
Verificare rețea
Evaluați conectivitatea la rețea folosind următoarele criterii:
| Tip de testare | Criterii de acceptare | Metodă |
|---|---|---|
| Latența | Sub 50 ms | Teste ping |
| Lățime de bandă | Peste 1 Gbps | testarea iperf3 |
| Rezoluție DNS | Sub 100 ms | dig/nslookup |
| Load Balancer | Stare activ/pasiv | Controale de sănătate |
Rulați aceste teste din diferite segmente de rețea pentru a vă asigura că toate căile potențiale de failover sunt acoperite. Documentați valorile de performanță de bază pentru comparare în timpul și după procesul de failover.
În plus, verificați dacă căile de rețea redundante sunt configurate și disponibile. Testați failoverul automat pentru componentele de rețea, dacă este cazul, și asigurați-vă că toate porturile și protocoalele necesare sunt deschise între site-ul principal și cel de rezervă.
sbb-itb-59e1987
Rularea testului de failover
După finalizarea verificărilor de pregătire, continuați cu atenție procesul de failover pentru a reduce eventualele întreruperi.
Porniți failover
- Notificați părțile interesate cu cel puțin 15 minute înainte.
- Întrerupeți toate tranzacțiile și confirmați că nu există întârziere de replicare.
- Începeți secvența de failover și înregistrați ora exactă de începere.
Urmăriți cu atenție modul în care sistemul răspunde inițial. Procesul de failover ar trebui să dureze de obicei 30-45 de secunde. Dacă durează mai mult, investigați imediat. Odată ce procesul începe, concentrați-vă pe monitorizarea jurnalelor în timp real pentru a identifica orice probleme pe măsură ce apar.
Urmăriți jurnalele de sistem
Monitorizarea jurnalelor de sistem este esențială pentru identificarea timpurie a problemelor:
| Tip jurnal | Semne de avertizare | Alerte critice |
|---|---|---|
| Aplicație | Timp de conexiune | Blocări de serviciu |
| Baza de date | Erori de replicare | Coruperea datelor |
| Reţea | Pierdere de pachete > 1% | Eșecuri de conexiune |
| Securitate | Întârzieri de autentificare | Încălcări de acces |
Păstrați interfața de linie de comandă (CLI) deschisă pentru a urmări mesajele în timp real. Acordați o atenție sporită codurilor de eroare care încep cu „FAIL” sau „ERR”, deoarece acestea semnalează adesea probleme urgente care necesită o atenție imediată.
Verificați site-ul de rezervă
După inițierea procesului de failover, confirmați că site-ul de rezervă funcționează corect:
1. Disponibilitatea serviciului
Asigurați-vă că toate serviciile de bază de pe site-ul de rezervă arată starea „ACTIV” în 60 de secunde. Notați eventualele întârzieri pentru revizuire.
2. Utilizarea resurselor
Monitorizați aceste valori critice în timpul tranziției:
- Utilizarea procesorului: Ar trebui să rămână sub 80%.
- Utilizarea memoriei: Vizualizați mai puțin de 75%.
- I/O stocare: Păstrați-l sub 2.000 IOPS.
- Debitul rețelei: Așteptați-vă la utilizare la 40-60% de niveluri normale.
3. Distribuția încărcăturii
Verificați dacă traficul este direcționat corect către site-ul de rezervă. Verificați valorile echilibrului de încărcare pentru a vă asigura că traficul este distribuit uniform între resursele disponibile.
Testați aplicațiile și datele
Testați imediat aplicațiile cheie și validați integritatea datelor:
- Testarea aplicației de bază: Efectuați operațiuni CRUD de bază, testați autentificarea utilizatorului, verificați fluxurile de lucru critice de afaceri și confirmați capacitatea de răspuns API.
- Validarea datelor: Asigurați consistența bazei de date, verificați integritatea sistemului de fișiere, confirmați tranzacțiile recente și testați vitezele de recuperare a datelor.
Concentrați-vă pe testarea aplicațiilor esențiale înainte de a trece la sisteme secundare. Documentați orice nereguli, cum ar fi timpii de răspuns care se abate cu mai mult de 20% de la măsurătorile de bază.
Testarea după failover
Odată ce site-ul de rezervă este în funcțiune, următorul pas este să vă asigurați că funcțiile esențiale de afaceri funcționează corect. Aceasta implică verificarea și verificarea cu atenție a operațiunilor pentru a confirma că totul funcționează așa cum ar trebui.
Verificarea funcției de afaceri
- Rulați un ciclu complet de tranzacții comerciale pentru a confirma fluxurile de lucru și fluxul de date fără probleme, inclusiv integrările externe.
- Testați conexiunile cheie cu sisteme externe care nu au fost acoperite în timpul testării anterioare a aplicației.
- Asigurați-vă că toate sarcinile programate sunt executate la timp.
- Verificați acuratețea sistemului de raportare pentru a evita orice discrepanțe.
Acești pași ajută la confirmarea faptului că mediul de backup poate gestiona operațiunile critice fără întreruperi. Rularea acestor validări de mai multe ori asigură o performanță constantă și vă permite să rezolvați rapid orice problemă.
Comutați înapoi la sistemul principal
După ce ați confirmat că sistemul de rezervă funcționează corect, este timpul să treceți înapoi la sistemul principal. Aceasta implică inversarea pașilor anteriori pentru a restabili funcționarea normală.
Începeți procesul de returnare
Notificați toate părțile interesate relevante și coordonați-vă cu echipa tehnică. Pregătiți o listă de verificare pentru a urmări fiecare pas al procesului, inclusiv sincronizarea bazei de date și momentul comutării aplicațiilor.
Asigurați-vă că:
- Confirmați că toate procesele critice sunt finalizate.
- Asigurați-vă că nu rămân tranzacții în așteptare.
- Documentați regulile temporare de rutare pentru referință în timpul inversării.
- Verificați dacă operațiunile sistemului funcționează conform așteptărilor.
Verificați sincronizarea datelor
Asigurați coerența datelor între sisteme prin verificarea:
- Redare precisă a jurnalelor de tranzacții ale bazei de date.
- Sincronizarea completă a modificărilor sistemului de fișiere.
- Alinierea înregistrărilor marcate de timp între sisteme.
- Îndepărtarea fișierelor temporare utilizate în timpul failoverului.
Utilizați instrumente precum sumele de verificare sau software-ul de comparare pentru a confirma că toate datele modificate în timpul transferului la eroare se potrivesc între sisteme înainte de a continua cu comutarea finală.
Inspectați sistemul primar
Efectuați o verificare aprofundată a stării de sănătate pentru a confirma că sistemul primar este gata:
- Starea infrastructurii: Verificați dacă toate componentele hardware sunt operaționale.
- Conectivitate la rețea: Verificați și confirmați configurațiile corecte de rutare.
- Servicii de aplicații: Porniți serviciile aplicației în ordinea corectă.
- Sisteme de securitate: Asigurați-vă că toate măsurile de securitate sunt active și funcționale.
Documentați rezultatele
Odată ce sistemul primar este complet restaurat, înregistrați rezultatele pentru a rafina procesele viitoare:
- Testare metrică
Înregistrați valorile cheie, cum ar fi durata transferului la eroare, timpul de sincronizare a datelor, numărul de probleme și comparațiile de performanță. - Documentație de eliberare
- Notați orice mesaje de eroare și rezoluțiile acestora.
- Detaliați pașii de depanare luati.
- Evaluați impactul de afaceri al failoverului.
- Domenii de îmbunătățire
- Identificați ineficiența procesului sau blocajele.
- Evidențiați lacunele în comunicare.
- Subliniați domeniile în care documentația ar putea fi îmbunătățită.
- Abordați orice constrângeri tehnice întâlnite.
Stocați toată documentația într-o locație centralizată pe care echipa de recuperare în caz de dezastru o poate accesa pentru referințe viitoare.
Rezumat
Testarea manuală de failover implică o planificare atentă, verificări amănunțite, execuție precisă și un proces de recuperare fără probleme. Iată o defalcare a fazelor cheie:
- Planificare: Definiți obiectivele, mapați dependențele, atribuiți roluri și abordați riscurile potențiale.
- Verificare: Asigurați-vă că infrastructura este pregătită, datele sunt sincronizate, rețelele sunt conectate și securitatea este intactă.
- Execuţie: Efectuați failover-ul pas cu pas, monitorizați în timp real, verificați funcționalitatea aplicației și urmăriți valorile de performanță.
- Recuperare: Restaurați sistemele primare, confirmați exactitatea datelor, asigurați-vă că serviciile funcționează și documentați întregul proces.
Pentru a vă îmbunătăți testarea de failover:
- Programează teste la fiecare trei luni.
- Păstrați documentația la zi.
- Rotiți responsabilitățile echipei pentru a construi expertiză.
- Evaluați și perfecționați procesul după fiecare test.
Un test de failover bine executat vă întărește capacitatea de a menține operațiunile de afaceri în timpul întreruperilor. Simularea scenariilor realiste într-un mediu controlat asigură rezultate fiabile fără a risca sistemele dumneavoastră de producție.