Manuella teststeg för failover
Manuell failover-testning säkerställer att dina system kan byta till säkerhetskopior under avbrott eller underhåll utan att störa verksamheten. Här är en snabb översikt över processen:
- Varför det är viktigt: Testa återställningsstegen, bekräfta backupkapacitet, utbilda team och förhindra framtida problem.
- Planering: Sätt upp mål (t.ex. stillestånd under 15 minuter), välj kritiska system (databaser, appar) och schemalägg tester under lågtrafik.
- Förberedelse: Verifiera systemets beredskap, datasynkronisering, säkerhetskopior och nätverksanslutning.
- Utförande: Följ en steg-för-steg failover-plan, övervaka loggar och validera säkerhetskopieringssystem och applikationsfunktioner.
- Återhämtning: Växla tillbaka till det primära systemet efter testning, bekräfta datakonsistens och dokumentera resultat för framtida förbättringar.
Denna process minimerar driftstopp, säkerställer dataintegritet och förbereder ditt team för verkliga incidenter. Regelbundna tester (var tredje månad) och förfinad dokumentation kan göra din failover-strategi mer tillförlitlig.
Testa ett failover-arbetsflöde
Planering av failover-testet
Noggrann planering säkerställer minimala störningar och bekräftar systemets motståndskraft under manuella failover-tester. Så här sätter du mål, väljer system, schemalägger testet och förbereder dokumentation.
Sätta testmål
Definiera tydliga mål för katastrofåterställning, som:
- Maximal driftstopp tillåten under failover (sikta på under 15 minuter)
- Verifiera datakonsistens över system
- Säkerställa applikationsfunktionalitet efter failover
- Mätning av nätverksprestanda
- Bekräftar användaråtkomst och autentisering
Välja testsystem
Fokusera på viktiga system, inklusive:
- Primära databasservrar
- Kundinriktade applikationer
- Interna verktyg för affärsverksamhet
- Autentiseringssystem
- Infrastruktur för kärnnät
Använd en beroendekarta för att förstå systeminteraktioner. Detta hjälper dig att bestämma vilka komponenter som ska testas tillsammans och vilka som kan isoleras.
Testschema och teamuppdateringar
Planera tester under lågtrafik och överväg följande:
- Underhåll Windows: Anpassa tester med förinställda underhållstider.
- Tidszoner: Ta hänsyn till globala teamplatser och varierande öppettider.
- Resurstillgänglighet: Se till att nyckelteammedlemmar är tillgängliga för hela testet.
- Affärskalender: Undvik hektiska perioder som bearbetning i slutet av månaden.
Meddela intressenter om testschemat minst två veckor framåt. Inkludera detaljer som:
- Förväntad systemavbrottstid
- Eventuella serviceavbrott
- Kontaktinformation för nödsituationer
- Återställningsprocedurer
Att skriva testplanen
En grundlig testplan bör innehålla:
1. Pre-failover checklista
Lista alla förberedande steg, såsom säkerhetskopiering av system, verifiering av datasynkronisering och allokering av resurser.
2. Utförandesteg
Beskriv den exakta sekvensen av åtgärder för failover. Inkludera kommandon, konfigurationsändringar och valideringspunkter.
3. Framgångskriterier
Definiera mätvärden för att mäta framgång, till exempel:
- Systemets svarstider
- Dataintegritetskontroller
- Applikationsfunktionstester
- Verifiering av användaråtkomst
4. Återställningsprocedurer
Ange detaljerade steg för att återgå till det primära systemet om problem uppstår. Ange villkoren som skulle utlösa en återställning.
Systemets beredskapskontroller
Innan du startar failover-testet är det viktigt att bekräfta att alla nyckelkomponenter är på plats. Detta hjälper till att skapa optimala testförhållanden och minskar risken för oväntade problem. Fokusera på att granska systemkonfigurationer, kontrollera datasynkronisering, se till att säkerhetskopior är sunda och testa nätverksanslutning.
Systeminställningsgranskning
Börja med att verifiera den aktuella systeminställningen:
- Kontrollera CPU-, minnes- och lagringstilldelningar.
- Bekräfta att alla nödvändiga tjänster körs.
- Verifiera behörigheter och åtkomstkontroller.
- Dubbelkolla säkerhetsinställningarna.
- Se till övervakningsverktyg är korrekt inställda.
Spela in dessa konfigurationer, inklusive versionsnummer, patchnivåer och inställningar, så att du kan validera dem efter failover-testet. Dessa steg säkerställer att systemet är förberett för testning.
Status för datasynkronisering
Efter att ha granskat systemkonfigurationerna, bekräfta att datasynkroniseringen fungerar som förväntat:
- Mät replikeringsfördröjning.
- Kontrollera databasens konsistens.
- Verifiera filsystemets synkronisering.
- Validera dataintegritet med kontrollsummor.
Fokusera på synkroniseringsindikatorer i realtid. För de flesta affärsapplikationer bör replikeringsfördröjningen vara under 60 sekunder. Detta säkerställer att data är redo för failover-testet.
Säkerhetskopiera systemkontroll
Inspektera säkerhetskopieringssystemet noggrant för att bekräfta att det är klart:
Hårdvara:
- Kontrollera elsystem och kyla.
- Se till att lagringskapacitet och prestanda uppfyller kraven.
- Verifiera nätverksgränssnittskort.
- Inspektera redundanta komponenter.
Programvara:
- Bedöm operativsystemets hälsa.
- Bekräfta att applikationsberoenden fungerar.
- Kontrollera säkerhetskopieringsverktyg och verktyg.
- Validera övervakningsagenter.
Åtkomstkontroller:
- Testa autentiseringssystem.
- Granska användarbehörigheter.
- Bekräfta att säkerhetscertifikaten är giltiga.
- Verifiera VPN-anslutningar.
Dessa kontroller säkerställer att backupsystemet är fullt fungerande och redo för failover-testet.
Nätverkskontroll
Utvärdera nätverksanslutning med hjälp av följande kriterier:
| Testtyp | Acceptanskriterier | Metod |
|---|---|---|
| Latens | Under 50 ms | Ping-tester |
| Bandbredd | Över 1 Gbps | iperf3-testning |
| DNS-upplösning | Under 100 ms | gräva/nslookup |
| Lastbalanserare | Aktiv/passiv status | Hälsokontroller |
Kör dessa tester från olika nätverkssegment för att säkerställa att alla potentiella failover-vägar täcks. Dokumentera baslinjeprestandamått för jämförelse under och efter failover-processen.
Kontrollera dessutom att redundanta nätverksvägar är konfigurerade och tillgängliga. Testa automatisk failover för nätverkskomponenter om tillämpligt, och se till att alla nödvändiga portar och protokoll är öppna mellan den primära och backup-platsen.
sbb-itb-59e1987
Kör failover-testet
Efter att ha slutfört beredskapskontroller, fortsätt med failover-processen noggrant för att minska eventuella störningar.
Starta failover
- Meddela intressenter minst 15 minuter i förväg.
- Pausa alla transaktioner och bekräfta att det inte finns någon replikeringsfördröjning.
- Börja failover-sekvensen och registrera den exakta starttiden.
Håll ett öga på hur systemet reagerar initialt. Failover-processen bör vanligtvis ta 30-45 sekunder. Om det tar längre tid, undersök omedelbart. När processen startar, flytta ditt fokus till realtidsloggövervakning för att identifiera eventuella problem när de uppstår.
Titta på systemloggar
Övervakning av systemloggar är avgörande för att upptäcka problem tidigt:
| Loggtyp | Varningstecken | Kritiska varningar |
|---|---|---|
| Ansökan | Timeout för anslutning | Tjänsten kraschar |
| Databas | Replikeringsfel | Datakorruption |
| Nätverk | Paketförlust > 1% | Anslutningsfel |
| säkerhet | Autentiseringsförseningar | Åtkomstöverträdelser |
Håll kommandoradsgränssnittet (CLI) öppet för att spåra realtidsmeddelanden. Var extra uppmärksam på felkoder som börjar med "FAIL" eller "ERR", eftersom dessa ofta signalerar akuta problem som kräver omedelbar åtgärd.
Kontrollera Backup Site
Efter att ha initierat failover, bekräfta att säkerhetskopieringsplatsen fungerar korrekt:
1. Tjänstens tillgänglighet
Se till att alla kärntjänster på säkerhetskopieringsplatsen visar statusen "AKTIV" inom 60 sekunder. Notera eventuella förseningar för granskning.
2. Resursutnyttjande
Övervaka dessa kritiska mätvärden under övergången:
- CPU-användning: Bör förbli under 80%.
- Minnesanvändning: Sikta på mindre än 75%-användning.
- Lagring I/O: Håll det under 2 000 IOPS.
- Nätverksgenomströmning: Räkna med användning vid 40-60% av normala nivåer.
3. Lastfördelning
Kontrollera att trafiken dirigeras korrekt till säkerhetskopieringsplatsen. Kontrollera belastningsbalansmätvärden för att säkerställa att trafiken är jämnt fördelad över tillgängliga resurser.
Testa appar och data
Testa omedelbart nyckelapplikationer och validera dataintegriteten:
- Kärnapplikationstestning: Utför grundläggande CRUD-operationer, testa användarautentisering, kontrollera affärskritiska arbetsflöden och bekräfta API-respons.
- Datavalidering: Säkerställ databaskonsistens, verifiera filsystemets integritet, bekräfta senaste transaktioner och testa datahämtningshastigheter.
Fokusera på att testa verksamhetskritiska applikationer först innan du går vidare till sekundära system. Dokumentera eventuella oegentligheter, såsom svarstider som avviker med mer än 20% från baslinjemätningar.
Testning efter failover
När säkerhetskopieringssidan är igång är nästa steg att se till att viktiga affärsfunktioner fungerar korrekt. Detta innebär att noggrant kontrollera och verifiera driften för att bekräfta att allt fungerar som det ska.
Affärsfunktionskontroll
- Kör en fullständig affärstransaktionscykel för att bekräfta arbetsflöden och dataflöde sömlöst, inklusive externa integrationer.
- Testa nyckelanslutningar med externa system som inte täcktes under tidigare applikationstestning.
- Se till att alla schemalagda uppgifter utförs i tid.
- Kontrollera noggrannheten i rapporteringssystemet för att undvika eventuella avvikelser.
Dessa steg hjälper till att bekräfta att säkerhetskopieringsmiljön kan hantera kritiska operationer utan avbrott. Att köra dessa valideringar flera gånger säkerställer konsekvent prestanda och gör att du snabbt kan åtgärda eventuella problem.
Växla tillbaka till huvudsystemet
Efter att ha bekräftat att backupsystemet fungerar korrekt är det dags att gå tillbaka till det primära systemet. Detta innebär att vända de tidigare stegen för att återställa normal drift.
Starta returprocessen
Meddela alla relevanta intressenter och samordna med det tekniska teamet. Förbered en checklista för att spåra varje steg i processen, inklusive databassynkronisering och applikationsövergångstid.
Se till att:
- Bekräfta att alla kritiska processer är slutförda.
- Se till att inga väntande transaktioner finns kvar.
- Dokumentera temporära routingregler för referens under reversering.
- Kontrollera att systemdriften fungerar som förväntat.
Verifiera datasynkronisering
Säkerställ datakonsistens mellan systemen genom att kontrollera:
- Noggrann uppspelning av databastransaktionsloggar.
- Komplett synkronisering av filsystemändringar.
- Justering av tidsstämplade poster över system.
- Borttagning av temporära filer som används under failover.
Använd verktyg som kontrollsummor eller jämförelsemjukvara för att bekräfta att all data som ändrats under failover matchar mellan systemen innan du fortsätter med den sista omkopplingen.
Inspektera det primära systemet
Genomför en grundlig hälsokontroll för att bekräfta att det primära systemet är klart:
- Infrastrukturstatus: Kontrollera att alla hårdvarukomponenter fungerar.
- Nätverksanslutning: Kontrollera och bekräfta korrekta routingkonfigurationer.
- Applikationstjänster: Starta applikationstjänster i rätt ordning.
- Säkerhetssystem: Se till att alla säkerhetsåtgärder är aktiva och fungerar.
Dokumentera resultaten
När det primära systemet är helt återställt, registrera resultaten för att förfina framtida processer:
- Testa mätvärden
Logga nyckelmätvärden som failover-varaktighet, datasynkroniseringstid, antal problem och prestandajämförelser. - Ärendedokumentation
- Notera eventuella felmeddelanden och deras lösningar.
- Detaljerade felsökningssteg vidtagna.
- Bedöm affärseffekten av failover.
- Förbättringsområden
- Identifiera processineffektivitet eller flaskhalsar.
- Markera luckor i kommunikationen.
- Peka ut områden där dokumentationen kan förbättras.
- Ta itu med eventuella tekniska begränsningar.
Förvara all dokumentation på en central plats som återställningsteamet kan komma åt för framtida referens.
Sammanfattning
Manuell failover-testning innebär noggrann planering, noggranna kontroller, exakt utförande och en smidig återställningsprocess. Här är en uppdelning av nyckelfaserna:
- Planering: Definiera mål, kartlägga beroenden, tilldela roller och ta itu med potentiella risker.
- Kontroll: Se till att infrastrukturen är klar, data synkroniseras, nätverk är anslutna och säkerheten är intakt.
- Utförande: Utför failover steg-för-steg, övervaka i realtid, kontrollera applikationsfunktionalitet och spåra prestandamått.
- Återhämtning: Återställ primära system, bekräfta att data är korrekta, se till att tjänster körs och dokumentera hela processen.
För att förbättra ditt failover-test:
- Schemalägg tester var tredje månad.
- Håll dokumentationen uppdaterad.
- Rotera teamansvar för att bygga expertis.
- Utvärdera och förfina din process efter varje test.
Ett väl genomfört failover-test stärker din förmåga att upprätthålla affärsverksamheten vid störningar. Att simulera realistiska scenarier i en kontrollerad miljö säkerställer tillförlitliga resultat utan att riskera dina produktionssystem.