Handmatige failover-teststappen
Handmatige failovertesten zorgen ervoor dat uw systemen kunnen overschakelen naar back-ups tijdens storingen of onderhoud zonder de werking te verstoren. Hier is een kort overzicht van het proces:
- Waarom het belangrijk is: Test herstelstappen, bevestig de back-upcapaciteit, train teams en voorkom toekomstige problemen.
- Planning: Stel doelen (bijvoorbeeld een downtime van minder dan 15 minuten), kies kritieke systemen (databases, apps) en plan tests in tijdens daluren.
- Voorbereiding: Controleer de gereedheid van het systeem, gegevenssynchronisatie, back-ups en netwerkconnectiviteit.
- Uitvoering: Volg een stapsgewijs failoverplan, controleer logboeken en valideer back-upsystemen en applicatiefunctionaliteit.
- Herstel: Schakel na het testen terug naar het primaire systeem, bevestig de consistentie van de gegevens en documenteer de resultaten voor toekomstige verbeteringen.
Dit proces minimaliseert downtime, zorgt voor data-integriteit en bereidt uw team voor op echte incidenten. Regelmatige tests (elke drie maanden) en verfijnde documentatie kunnen uw failoverstrategie betrouwbaarder maken.
Een failover-workflow testen
De failovertest plannen
Zorgvuldige planning zorgt voor minimale verstoring en bevestigt de veerkracht van het systeem tijdens handmatige failovertests. Hier leest u hoe u doelen stelt, systemen kiest, de test plant en documentatie voorbereidt.
Testdoelen stellen
Definieer duidelijke doelstellingen voor herstel na een ramp, zoals:
- Maximale downtime toegestaan tijdens failover (streef naar minder dan 15 minuten)
- Verifiëren van gegevensconsistentie tussen systemen
- Zorgen voor applicatiefunctionaliteit na failover
- Netwerkprestaties meten
- Bevestigen van gebruikerstoegang en authenticatie
Testsystemen selecteren
Concentreer u op essentiële systemen, waaronder:
- Primaire databaseservers
- Toepassingen voor klanten
- Interne hulpmiddelen voor bedrijfsvoering
- Authenticatiesystemen
- Kernnetwerkinfrastructuur
Gebruik een dependency map om systeeminteracties te begrijpen. Dit helpt u te beslissen welke componenten samen getest moeten worden en welke geïsoleerd kunnen worden.
Testschema en teamupdates
Plan tests buiten de spitsuren en houd rekening met het volgende:
- Onderhoudsvensters: Stem tests af op vooraf geplande onderhoudstijden.
- Tijdzones: Houd rekening met wereldwijde teamlocaties en wisselende kantooruren.
- Beschikbaarheid van bronnen: Zorg ervoor dat belangrijke teamleden tijdens de hele test beschikbaar zijn.
- Zakelijke kalenderVermijd drukke periodes, zoals de verwerking aan het einde van de maand.
Informeer belanghebbenden ten minste twee weken van tevoren over het testschema. Vermeld details zoals:
- Verwachte systeemuitvaltijd
- Mogelijke serviceonderbrekingen
- Contactgegevens voor noodgevallen
- Terugdraaiprocedures
Het schrijven van het testplan
Een grondig testplan moet het volgende omvatten:
1. Controlelijst vóór failover
Vermeld alle voorbereidende stappen, zoals het maken van back-ups van systemen, het verifiëren van gegevenssynchronisatie en het toewijzen van middelen.
2. Uitvoeringsstappen
Beschrijf de exacte volgorde van acties voor de failover. Neem opdrachten, configuratiewijzigingen en validatiepunten op.
3. Succescriteria
Definieer meetgegevens om succes te meten, zoals:
- Systeemresponstijden
- Controles op gegevensintegriteit
- Toepassingsfunctionaliteitstesten
- Validatie van gebruikerstoegang
4. Terugdraaiprocedures
Geef gedetailleerde stappen voor het teruggaan naar het primaire systeem als er problemen optreden. Geef de voorwaarden op die een rollback zouden activeren.
Systeemgereedheidscontroles
Voordat u de failovertest start, is het cruciaal om te bevestigen dat alle belangrijke componenten aanwezig zijn. Dit helpt optimale testomstandigheden te creëren en vermindert het risico op onverwachte problemen. Concentreer u op het beoordelen van systeemconfiguraties, het controleren van gegevenssynchronisatie, het verzekeren dat back-ups gezond zijn en het testen van netwerkconnectiviteit.
Systeemconfiguratie beoordelen
Begin met het verifiëren van de huidige systeeminstellingen:
- Controleer de CPU-, geheugen- en opslagtoewijzingen.
- Controleer of alle benodigde services actief zijn.
- Controleer machtigingen en toegangscontroles.
- Controleer de beveiligingsinstellingen nogmaals.
- Zorg ervoor monitoringshulpmiddelen correct zijn ingesteld.
Registreer deze configuraties, inclusief versienummers, patchniveaus en instellingen, zodat u ze na de failovertest kunt valideren. Deze stappen zorgen ervoor dat het systeem is voorbereid op testen.
Gegevenssynchronisatiestatus
Controleer de systeemconfiguraties en controleer of de gegevenssynchronisatie naar behoren functioneert:
- Meet de replicatievertraging.
- Controleer de consistentie van de database.
- Controleer de synchronisatie van het bestandssysteem.
- Valideer de gegevensintegriteit met behulp van controlesommen.
Focus op realtime synchronisatie-indicatoren. Voor de meeste zakelijke toepassingen moet de replicatievertraging minder dan 60 seconden zijn. Dit zorgt ervoor dat gegevens klaar zijn voor de failovertest.
Back-up systeemcontrole
Controleer het back-upsysteem grondig om te bevestigen dat het klaar is:
Hardware:
- Controleer de energiesystemen en de koeling.
- Zorg ervoor dat de opslagcapaciteit en prestaties aan de vereisten voldoen.
- Controleer de netwerkinterfacekaarten.
- Controleer redundante componenten.
Software:
- Beoordeel de gezondheid van het besturingssysteem.
- Controleer of de afhankelijkheden van de toepassing werken.
- Controleer de back-uptools en -hulpprogramma's.
- Valideer monitoringagenten.
Toegangscontroles:
- Test authenticatiesystemen.
- Controleer de gebruikersrechten.
- Controleer of de beveiligingscertificaten geldig zijn.
- Controleer VPN-verbindingen.
Met deze controles wordt gegarandeerd dat het back-upsysteem volledig operationeel is en klaar is voor de failovertest.
Netwerkcontrole
Evalueer de netwerkconnectiviteit aan de hand van de volgende criteria:
| Testtype | Acceptatiecriteria | Methode |
|---|---|---|
| Latentie | Onder 50ms | Ping-testen |
| Dataverkeer | Meer dan 1 Gbps | iperf3-testen |
| DNS-resolutie | Minder dan 100 ms | graven/nslookup |
| Lastbalancer | Actieve/passieve status | Gezondheidscontroles |
Voer deze tests uit vanaf verschillende netwerksegmenten om ervoor te zorgen dat alle potentiële failoverpaden worden gedekt. Documenteer baseline-prestatiemetingen voor vergelijking tijdens en na het failoverproces.
Controleer daarnaast of redundante netwerkpaden geconfigureerd en beschikbaar zijn. Test automatische failover voor netwerkcomponenten indien van toepassing en zorg ervoor dat alle vereiste poorten en protocollen open zijn tussen de primaire en back-upsites.
sbb-itb-59e1987
De failovertest uitvoeren
Nadat u de gereedheidscontroles hebt uitgevoerd, moet u het failoverproces zorgvuldig uitvoeren om mogelijke verstoringen tot een minimum te beperken.
Failover starten
- Waarschuw belanghebbenden minimaal 15 minuten van tevoren.
- Pauzeer alle transacties en controleer of er geen replicatievertraging is.
- Start de failover-sequentie en noteer de exacte starttijd.
Houd goed in de gaten hoe het systeem in eerste instantie reageert. Het failoverproces duurt doorgaans 30-45 seconden. Als het langer duurt, onderzoek het dan onmiddellijk. Zodra het proces start, verschuift u uw focus naar realtime logmonitoring om problemen te identificeren zodra ze zich voordoen.
Bekijk systeemlogboeken
Het monitoren van systeemlogboeken is cruciaal om problemen vroegtijdig te signaleren:
| Logboektype | Waarschuwingssignalen | Kritieke waarschuwingen |
|---|---|---|
| Sollicitatie | Verbindingstime-outs | Service crasht |
| Databank | Replicatiefouten | Gegevenscorruptie |
| Netwerk | Pakketverlies > 1% | Verbindingsfouten |
| Beveiliging | Vertragingen bij authenticatie | Toegangsovertredingen |
Houd de command-line interface (CLI) open om realtime berichten te volgen. Besteed extra aandacht aan foutcodes die beginnen met "FAIL" of "ERR", omdat deze vaak urgente problemen signaleren die onmiddellijke aandacht vereisen.
Controleer back-upsite
Controleer na het starten van de failover of de back-upsite correct functioneert:
1. Beschikbaarheid van de service
Zorg ervoor dat alle kernservices op de back-upsite binnen 60 seconden de status 'ACTIVE' weergeven. Let op eventuele vertragingen voor beoordeling.
2. Resourcegebruik
Houd deze belangrijke statistieken in de gaten tijdens de overgang:
- CPU-gebruik: Moet onder 80% blijven.
- Geheugengebruik: Streef naar een gebruik van minder dan 75%.
- Opslag I/O: Houd het onder de 2.000 IOPS.
- Netwerkdoorvoer: Verwacht gebruik bij 40-60% van normale niveaus.
3. Belastingverdeling
Controleer of het verkeer correct naar de back-upsite wordt geleid. Controleer load balancer-statistieken om ervoor te zorgen dat het verkeer gelijkmatig over de beschikbare bronnen wordt verdeeld.
Test apps en data
Test direct belangrijke applicaties en valideer de gegevensintegriteit:
- Kerntoepassingstesten: Voer basis-CRUD-bewerkingen uit, test gebruikersauthenticatie, controleer kritieke bedrijfsworkflows en bevestig de API-responsiviteit.
- Gegevensvalidatie: Zorg voor consistentie in de database, controleer de integriteit van het bestandssysteem, bevestig recente transacties en test de snelheid van het ophalen van gegevens.
Concentreer u eerst op het testen van missiekritieke applicaties voordat u doorgaat naar secundaire systemen. Documenteer onregelmatigheden, zoals responstijden die meer dan 20% afwijken van de basismetingen.
Testen na failover
Zodra de back-upsite up and running is, is de volgende stap om ervoor te zorgen dat essentiële bedrijfsfuncties goed werken. Dit omvat het zorgvuldig controleren en verifiëren van de operaties om te bevestigen dat alles werkt zoals het hoort.
Controle van de bedrijfsfunctie
- Voer een volledige bedrijfstransactiecyclus uit om te controleren of workflows en gegevensstromen naadloos verlopen, inclusief externe integraties.
- Test belangrijke verbindingen met externe systemen die niet aan bod kwamen tijdens eerdere applicatietests.
- Zorg ervoor dat alle geplande taken op tijd worden uitgevoerd.
- Controleer de nauwkeurigheid van het rapportagesysteem om discrepanties te voorkomen.
Deze stappen helpen bevestigen dat de back-upomgeving kritieke bewerkingen zonder onderbrekingen aankan. Door deze validaties meerdere keren uit te voeren, zorgt u voor consistente prestaties en kunt u snel eventuele problemen aanpakken.
Terug naar hoofdsysteem
Nadat is bevestigd dat het back-upsysteem goed functioneert, is het tijd om terug te gaan naar het primaire systeem. Dit houdt in dat de eerdere stappen worden teruggedraaid om de normale werking te herstellen.
Start het retourproces
Informeer alle relevante stakeholders en coördineer met het technische team. Bereid een checklist voor om elke stap van het proces bij te houden, inclusief databasesynchronisatie en timing van applicatieswitchover.
Zorg ervoor dat:
- Controleer of alle kritieke processen zijn voltooid.
- Zorg ervoor dat er geen transacties meer in behandeling zijn.
- Leg tijdelijke routeringsregels vast ter referentie tijdens het omkeren.
- Controleer of het systeem naar behoren functioneert.
Controleer gegevenssynchronisatie
Zorg voor consistentie van de gegevens tussen de systemen door het volgende te controleren:
- Nauwkeurige weergave van databasetransactielogboeken.
- Volledige synchronisatie van wijzigingen in het bestandssysteem.
- Uitlijning van tijdstempelrecords in verschillende systemen.
- Verwijderen van tijdelijke bestanden die tijdens failover zijn gebruikt.
Gebruik hulpmiddelen zoals controlesommen of vergelijkingssoftware om te controleren of alle gegevens die tijdens de failover zijn gewijzigd, overeenkomen tussen de systemen voordat u doorgaat met de definitieve overstap.
Inspecteer het primaire systeem
Voer een grondige gezondheidscontrole uit om te bevestigen dat het primaire systeem gereed is:
- Infrastructuurstatus: Controleer of alle hardwarecomponenten operationeel zijn.
- Netwerkconnectiviteit: Controleer en bevestig de juiste routeringsconfiguraties.
- Toepassingsdiensten: Start toepassingsservices in de juiste volgorde.
- Beveiligingssystemen: Zorg ervoor dat alle veiligheidsmaatregelen actief zijn en goed functioneren.
Documenteer de resultaten
Zodra het primaire systeem volledig is hersteld, legt u de resultaten vast om toekomstige processen te verfijnen:
- Teststatistieken
Registreer belangrijke statistieken, zoals de duur van de failover, de tijd voor gegevenssynchronisatie, het aantal problemen en prestatievergelijkingen. - Probleemdocumentatie
- Noteer eventuele foutmeldingen en hun oplossingen.
- Gedetailleerde informatie over de ondernomen probleemoplossingsstappen.
- Beoordeel de zakelijke impact van de failover.
- Verbeteringsgebieden
- Identificeer procesinefficiënties of knelpunten.
- Benadruk hiaten in de communicatie.
- Geef aan waar de documentatie verbeterd kan worden.
- Los eventuele technische beperkingen op.
Bewaar alle documentatie op een centrale locatie, waar het noodherstelteam in de toekomst toegang toe heeft.
Samenvatting
Handmatige failover-testen vereisen zorgvuldige planning, grondige controles, nauwkeurige uitvoering en een soepel herstelproces. Hier is een overzicht van de belangrijkste fasen:
- Planning: Definieer doelen, breng afhankelijkheden in kaart, wijs rollen toe en pak potentiële risico's aan.
- Verificatie: Zorg ervoor dat de infrastructuur gereed is, dat gegevens gesynchroniseerd zijn, dat netwerken verbonden zijn en dat de beveiliging intact is.
- Uitvoering: Voer de failover stapsgewijs uit, houd realtime toezicht, controleer de functionaliteit van de applicatie en volg prestatiegegevens.
- Herstel: Herstel primaire systemen, bevestig dat de gegevens correct zijn, zorg dat services actief zijn en documenteer het gehele proces.
Om uw failover-testen te verbeteren:
- Laat elke drie maanden een test uitvoeren.
- Houd de documentatie up-to-date.
- Roteer teamverantwoordelijkheden om expertise op te bouwen.
- Evalueer en verfijn uw proces na elke test.
Een goed uitgevoerde failovertest versterkt uw vermogen om bedrijfsactiviteiten te handhaven tijdens verstoringen. Het simuleren van realistische scenario's in een gecontroleerde omgeving zorgt voor betrouwbare resultaten zonder uw productiesystemen in gevaar te brengen.