Kroky manuálního testování failoveru | Serverion

Kroky ručního testování při selhání

Kroky ručního testování při selhání

ambros Nezařazené 19/03/2025

Manuální testování převzetí služeb při selhání zajišťuje, že se vaše systémy mohou během výpadků nebo údržby přepnout na zálohování, aniž by došlo k přerušení provozu. Zde je rychlý přehled procesu:

Proč je to důležité: Otestujte kroky obnovy, potvrďte zálohovací kapacitu, vyškolte týmy a předcházejte budoucím problémům.
Plánování: Stanovte si cíle (např. prostoje pod 15 minut), vyberte kritické systémy (databáze, aplikace) a naplánujte testy na hodiny mimo špičku.
Příprava: Ověřte připravenost systému, synchronizaci dat, zálohy a síťové připojení.
Provedení: Postupujte podle podrobného plánu převzetí služeb při selhání, sledujte protokoly a ověřujte zálohovací systémy a funkčnost aplikací.
Zotavení: Po testování přepněte zpět na primární systém, potvrďte konzistenci dat a zdokumentujte výsledky pro budoucí vylepšení.

Tento proces minimalizuje prostoje, zajišťuje integritu dat a připravuje váš tým na skutečné incidenty. Pravidelné testy (každé tři měsíce) a propracovaná dokumentace mohou učinit vaši strategii převzetí služeb při selhání spolehlivější.

Testování pracovního postupu převzetí služeb při selhání

Plánování testu převzetí služeb při selhání

Pečlivé plánování zajišťuje minimální narušení a potvrzuje odolnost systému během manuálních testů převzetí služeb při selhání. Zde je návod, jak nastavit cíle, vybrat systémy, naplánovat test a připravit dokumentaci.

Stanovení testovacích cílů

Definujte jasné cíle pro obnovu po havárii, jako například:

Maximální doba odstávky povolená během převzetí služeb při selhání (zaměřte se na méně než 15 minut)
Ověření konzistence dat napříč systémy
Zajištění funkčnosti aplikace po převzetí služeb při selhání
Měření výkonu sítě
Potvrzení přístupu a ověření uživatele

Výběr testovacích systémů

Zaměřte se na základní systémy, včetně:

Primární databázové servery
Aplikace orientované na zákazníka
Interní nástroje pro obchodní operace
Autentizační systémy
Základní síťová infrastruktura

Použijte mapu závislostí k pochopení systémových interakcí. To vám pomůže rozhodnout, které komponenty je třeba testovat společně a které lze izolovat.

Plán testů a aktualizace týmu

Plánujte testy mimo špičku a zvažte následující:

Údržba Windows: Srovnejte testy s předem naplánovanými časy údržby.
Časová pásma: Faktor v globálních umístěních týmů a měnící se pracovní době.
Dostupnost zdrojů: Ujistěte se, že klíčoví členové týmu jsou k dispozici po celou dobu testu.
Obchodní kalendář: Vyhněte se rušným obdobím, jako je zpracování na konci měsíce.

Informujte zúčastněné strany o plánu testování alespoň dva týdny předem. Zahrňte podrobnosti jako:

Předpokládaný výpadek systému
Možná přerušení provozu
Nouzové kontaktní informace
Postupy vrácení zpět

Psaní zkušebního plánu

Důkladný testovací plán by měl zahrnovat:

1. Kontrolní seznam před selháním

Uveďte všechny přípravné kroky, jako je zálohování systémů, ověření synchronizace dat a alokace zdrojů.

2. Kroky provedení

Popište přesnou sekvenci akcí pro převzetí služeb při selhání. Zahrnout příkazy, změny konfigurace a body ověření.

3. Kritéria úspěchu

Definujte metriky pro měření úspěchu, například:

Doba odezvy systému
Kontrola integrity dat
Testy funkčnosti aplikace
Ověření uživatelského přístupu

4. Postupy vrácení zpět

Poskytněte podrobné kroky pro návrat k primárnímu systému, pokud nastanou problémy. Zadejte podmínky, které by vyvolaly vrácení zpět.

Kontroly připravenosti systému

Před zahájením testu převzetí služeb při selhání je důležité potvrdit, že všechny klíčové komponenty jsou na svém místě. To pomáhá vytvářet optimální testovací podmínky a snižuje riziko neočekávaných problémů. Zaměřte se na kontrolu systémových konfigurací, kontrolu synchronizace dat, zajištění zdravého zálohování a testování síťové konektivity.

Kontrola nastavení systému

Začněte ověřením aktuálního nastavení systému:

Zkontrolujte přidělení CPU, paměti a úložiště.
Potvrďte, že jsou spuštěny všechny potřebné služby.
Ověřte oprávnění a řízení přístupu.
Znovu zkontrolujte nastavení zabezpečení.
Ujistěte se monitorovací nástroje jsou nastaveny správně.

Zaznamenejte si tyto konfigurace, včetně čísel verzí, úrovní oprav a nastavení, abyste je mohli ověřit po testu převzetí služeb při selhání. Tyto kroky zajistí, že systém bude připraven k testování.

Stav synchronizace dat

Po kontrole systémových konfigurací se ujistěte, že synchronizace dat funguje podle očekávání:

Změřte zpoždění replikace.
Zkontrolujte konzistenci databáze.
Ověřte synchronizaci systému souborů.
Ověřte integritu dat pomocí kontrolních součtů.

Zaměřte se na indikátory synchronizace v reálném čase. U většiny podnikových aplikací by zpoždění replikace mělo být pod 60 sekund. Tím je zajištěno, že data jsou připravena pro test převzetí služeb při selhání.

Kontrola zálohování systému

Důkladně zkontrolujte záložní systém, abyste se ujistili, že je připraven:

Železářské zboží:

Zkontrolujte napájecí systémy a chlazení.
Zajistěte, aby kapacita úložiště a výkon odpovídaly požadavkům.
Ověřte karty síťového rozhraní.
Zkontrolujte redundantní komponenty.

Software:

Vyhodnoťte stav operačního systému.
Ověřte, že závislosti aplikací fungují.
Zkontrolujte zálohovací nástroje a nástroje.
Ověřte monitorovací agenty.

Ovládání přístupu:

Testujte autentizační systémy.
Zkontrolujte uživatelská oprávnění.
Potvrďte platnost bezpečnostních certifikátů.
Ověřte připojení VPN.

Tyto kontroly zajišťují, že záložní systém je plně funkční a připravený na test převzetí služeb při selhání.

Kontrola sítě

Vyhodnoťte připojení k síti pomocí následujících kritérií:

Typ testu	Kritéria přijetí	Metoda
Latence	Méně než 50 ms	Ping testy
Šířka pásma	Přes 1 Gbps	testování iperf3
Rozlišení DNS	Méně než 100 ms	dig/nslookup
Load Balancer	Aktivní/pasivní stav	Zdravotní prohlídky

Spusťte tyto testy z různých segmentů sítě, abyste se ujistili, že jsou pokryty všechny potenciální cesty převzetí služeb při selhání. Zdokumentujte základní metriky výkonu pro porovnání během procesu převzetí služeb při selhání a po něm.

Dále ověřte, zda jsou nakonfigurovány a dostupné redundantní síťové cesty. Otestujte automatické převzetí služeb při selhání pro síťové komponenty, pokud je to možné, a zajistěte, aby byly všechny požadované porty a protokoly otevřené mezi primárním a záložním serverem.

Spuštění testu převzetí služeb při selhání

Po dokončení kontrol připravenosti pokračujte v procesu převzetí služeb při selhání opatrně, abyste snížili všechna potenciální narušení.

Spustit převzetí služeb při selhání

Informujte zúčastněné strany alespoň 15 minut předem.
Pozastavte všechny transakce a potvrďte, že nedochází k žádnému zpoždění replikace.
Spusťte sekvenci převzetí služeb při selhání a zaznamenejte si přesný čas zahájení.

Pozorně sledujte, jak systém zpočátku reaguje. Proces převzetí služeb při selhání by měl obvykle trvat 30–45 sekund. Pokud to trvá déle, okamžitě to prozkoumejte. Jakmile proces začne, zaměřte se na sledování protokolů v reálném čase, abyste identifikovali případné problémy, jakmile nastanou.

Sledujte systémové protokoly

Monitorování systémových protokolů je zásadní pro včasné odhalení problémů:

Typ protokolu	Varovné signály	Kritická upozornění
Aplikace	Časové limity připojení	Služba havaruje
Databáze	Chyby replikace	Poškození dat
Síť	Ztráta paketů > 1%	Selhání připojení
Bezpečnostní	Zpoždění autentizace	Porušení přístupu

Nechte rozhraní příkazového řádku (CLI) otevřené, abyste mohli sledovat zprávy v reálném čase. Věnujte zvýšenou pozornost chybovým kódům začínajícím „FAIL“ nebo „ERR“, protože často signalizují naléhavé problémy, které vyžadují okamžitou pozornost.

Zkontrolujte záložní web

Po inicializaci převzetí služeb při selhání se ujistěte, že zálohovací lokalita funguje správně:

1. Dostupnost služby

Zajistěte, aby všechny základní služby na serveru zálohování zobrazovaly do 60 sekund stav „AKTIVNÍ“. Zaznamenejte případné zpoždění pro kontrolu.

2. Využití zdrojů

Během přechodu sledujte tyto kritické metriky:

využití procesoru: Mělo by zůstat pod 80%.
Využití paměti: Zaměřte se na využití méně než 75%.
I/O úložiště: Udržujte ji pod 2 000 IOPS.
Propustnost sítě: Očekávejte použití při 40-60% normálních úrovní.

3. Rozložení zatížení

Ověřte, zda je provoz správně směrován na záložní web. Zkontrolujte metriky nástroje pro vyrovnávání zatížení, abyste zajistili rovnoměrné rozložení provozu mezi dostupné zdroje.

Testování aplikací a dat

Okamžitě otestujte klíčové aplikace a ověřte integritu dat:

Testování základních aplikací: Provádějte základní operace CRUD, testujte autentizaci uživatelů, kontrolujte kritické podnikové pracovní postupy a potvrzujte odezvu API.
Validace dat: Zajistěte konzistenci databáze, ověřte integritu systému souborů, potvrďte nedávné transakce a otestujte rychlost načítání dat.

Před přechodem na sekundární systémy se nejprve zaměřte na testování kriticky důležitých aplikací. Zaznamenejte všechny nepravidelnosti, jako jsou doby odezvy, které se odchylují o více než 201 TP3T od základního měření.

Testování po převzetí služeb při selhání

Jakmile je zálohovací stránka zprovozněna a spuštěna, dalším krokem je zajistit, aby základní obchodní funkce fungovaly správně. To zahrnuje pečlivou kontrolu a ověřování operací, abyste potvrdili, že vše běží tak, jak má.

Kontrola obchodní funkce

Spusťte celý cyklus obchodních transakcí, abyste bez problémů potvrdili pracovní postupy a tok dat, včetně externích integrací.
Otestujte klíčová připojení s externími systémy, které nebyly zahrnuty během dřívějšího testování aplikací.
Ujistěte se, že všechny naplánované úlohy jsou prováděny včas.
Zkontrolujte správnost systému hlášení, abyste se vyhnuli případným nesrovnalostem.

Tyto kroky pomáhají potvrdit, že zálohovací prostředí dokáže zpracovat kritické operace bez přerušení. Vícenásobné spouštění těchto ověření zajišťuje konzistentní výkon a umožňuje rychle řešit jakékoli problémy.

Přepněte zpět do hlavního systému

Po potvrzení, že zálohovací systém funguje správně, je čas přejít zpět na primární systém. To zahrnuje obrácení předchozích kroků k obnovení normálního provozu.

Spusťte proces vrácení

Informujte všechny relevantní zainteresované strany a koordinujte se s technickým týmem. Připravte si kontrolní seznam pro sledování každého kroku procesu, včetně synchronizace databáze a načasování přepínání aplikací.

Ujistěte se, že:

Potvrďte, že jsou dokončeny všechny kritické procesy.
Zajistěte, aby nezůstaly žádné nevyřízené transakce.
Zdokumentujte dočasná pravidla směrování pro referenci během obrácení.
Ověřte, že operace systému fungují podle očekávání.

Ověřte synchronizaci dat

Zajistěte konzistenci dat mezi systémy kontrolou:

Přesné přehrávání protokolů databázových transakcí.
Kompletní synchronizace změn systému souborů.
Zarovnání záznamů s časovým razítkem napříč systémy.
Odstranění dočasných souborů používaných během převzetí služeb při selhání.

Použijte nástroje jako kontrolní součty nebo srovnávací software k potvrzení, že všechna data upravená během převzetí služeb při selhání se shodují mezi systémy, než budete pokračovat s finálním přepnutím.

Zkontrolujte primární systém

Proveďte důkladnou kontrolu stavu, abyste potvrdili, že primární systém je připraven:

Stav infrastruktury: Ověřte, že jsou všechny hardwarové součásti funkční.
Připojení k síti: Zkontrolujte a potvrďte správné konfigurace směrování.
Aplikační služby: Spusťte aplikační služby ve správném pořadí.
Bezpečnostní systémy: Zajistěte, aby všechna bezpečnostní opatření byla aktivní a funkční.

Zdokumentujte výsledky

Jakmile bude primární systém plně obnoven, zaznamenejte výsledky, abyste mohli zpřesnit budoucí procesy:

Testovací metriky
Zaznamenávejte klíčové metriky, jako je trvání převzetí služeb při selhání, čas synchronizace dat, počty problémů a porovnání výkonu.
Vydání dokumentace
- Poznamenejte si všechny chybové zprávy a jejich řešení.
- Podrobné kroky při odstraňování problémů.
- Posuďte obchodní dopad převzetí služeb při selhání.
Oblasti zlepšení
- Identifikujte neefektivnost procesu nebo úzká místa.
- Zvýrazněte mezery v komunikaci.
- Poukázat na oblasti, kde by bylo možné dokumentaci zlepšit.
- Vyřešte všechna zjištěná technická omezení.

Uložte veškerou dokumentaci na centralizovaném místě, ke kterému má tým pro obnovu po havárii přístup pro budoucí použití.

Shrnutí

Manuální testování převzetí služeb při selhání zahrnuje pečlivé plánování, důkladné kontroly, přesné provádění a hladký proces obnovy. Zde je rozpis klíčových fází:

Plánování: Definujte cíle, mapujte závislosti, přidělujte role a řešte potenciální rizika.
Ověření: Ujistěte se, že je infrastruktura připravena, data jsou synchronizována, sítě jsou připojeny a zabezpečení je nedotčené.
Provedení: Provádějte převzetí služeb při selhání krok za krokem, monitorujte v reálném čase, kontrolujte funkčnost aplikace a sledujte metriky výkonu.
Zotavení: Obnovte primární systémy, potvrďte správnost dat, zajistěte, aby služby fungovaly, a zdokumentujte celý proces.

Chcete-li zlepšit testování převzetí služeb při selhání:

Naplánujte si testy každé tři měsíce.
Udržujte dokumentaci aktuální.
Střídejte týmové odpovědnosti, abyste získali odbornost.
Po každém testu vyhodnoťte a zpřesněte svůj proces.

Dobře provedený test převzetí služeb při selhání posílí vaši schopnost udržovat obchodní operace během výpadků. Simulace realistických scénářů v kontrolovaném prostředí zajišťuje spolehlivé výsledky bez rizika pro vaše produkční systémy.

Související příspěvky na blogu

Daleko daleko za slovem horolezectví, daleko od zemí Vokalia a Consonantia, žijí slepé texty. Odděleně žijí v záložkách přímo na pobřeží

759 Pinewood Avenue
Marquette, Michigan

Koupit nyní