Ręczne kroki testowania failover
Ręczne testowanie failover zapewnia, że Twoje systemy mogą przełączać się na kopie zapasowe podczas przerw w działaniu lub konserwacji bez zakłócania działania. Oto krótki przegląd procesu:
- Dlaczego to ważne:Testowanie kroków odzyskiwania, potwierdzanie pojemności kopii zapasowych, szkolenie zespołów i zapobieganie przyszłym problemom.
- Planowanie: Ustal cele (np. czas przestoju poniżej 15 minut), wybierz kluczowe systemy (bazy danych, aplikacje) i zaplanuj testy w godzinach poza szczytem.
- Przygotowanie:Sprawdź gotowość systemu, synchronizację danych, kopie zapasowe i łączność sieciową.
- Wykonanie: Postępuj zgodnie z planem przełączania awaryjnego krok po kroku, monitoruj dzienniki i sprawdzaj poprawność systemów kopii zapasowych oraz funkcjonalności aplikacji.
- Powrót do zdrowia: Po zakończeniu testów wróć do systemu głównego, potwierdź spójność danych i udokumentuj wyniki w celu wprowadzenia ulepszeń w przyszłości.
Ten proces minimalizuje przestoje, zapewnia integralność danych i przygotowuje zespół na prawdziwe incydenty. Regularne testy (co trzy miesiące) i udoskonalona dokumentacja mogą sprawić, że Twoja strategia failover będzie bardziej niezawodna.
Testowanie przepływu pracy w trybie failover
Planowanie testu failover
Staranne planowanie zapewnia minimalne zakłócenia i potwierdza odporność systemu podczas ręcznych testów failover. Oto jak wyznaczać cele, wybierać systemy, planować testy i przygotowywać dokumentację.
Wyznaczanie celów testowych
Określ jasne cele odzyskiwania po awarii, takie jak:
- Maksymalny czas przestoju dozwolony podczas przełączania awaryjnego (cel: poniżej 15 minut)
- Weryfikacja spójności danych w różnych systemach
- Zapewnienie funkcjonalności aplikacji po przełączeniu awaryjnym
- Pomiar wydajności sieci
- Potwierdzanie dostępu użytkownika i uwierzytelnianie
Wybór systemów testowych
Skup się na podstawowych systemach, w tym:
- Podstawowe serwery baz danych
- Aplikacje skierowane do klientów
- Wewnętrzne narzędzia do operacji biznesowych
- Systemy uwierzytelniania
- Główna infrastruktura sieciowa
Użyj mapy zależności, aby zrozumieć interakcje systemowe. Pomaga to zdecydować, które komponenty należy testować razem, a które można odizolować.
Harmonogram testów i aktualizacje zespołu
Zaplanuj testy w godzinach poza szczytem i weź pod uwagę następujące kwestie:
- Okna konserwacyjne:Dopasuj testy do zaplanowanych terminów konserwacji.
- Strefy czasowe: Weź pod uwagę globalne lokalizacje zespołów i zmienne godziny pracy.
- Dostępność zasobów: Upewnij się, że kluczowi członkowie zespołu będą dostępni przez cały czas trwania testu.
- Kalendarz biznesowy: Unikaj okresów wzmożonego ruchu, np. pod koniec miesiąca.
Powiadom interesariuszy o harmonogramie testów co najmniej dwa tygodnie wcześniej. Podaj szczegóły, takie jak:
- Przewidywany czas przestoju systemu
- Możliwe przerwy w świadczeniu usług
- Informacje kontaktowe w nagłych wypadkach
- Procedury wycofywania
Pisanie planu testów
Szczegółowy plan testów powinien obejmować:
1. Lista kontrolna przed przełączeniem w tryb failover
Wymień wszystkie kroki przygotowawcze, takie jak tworzenie kopii zapasowych systemów, weryfikacja synchronizacji danych i przydzielanie zasobów.
2. Kroki wykonania
Opisz dokładną sekwencję działań dla failoveru. Dołącz polecenia, zmiany konfiguracji i punkty walidacji.
3. Kryteria sukcesu
Zdefiniuj wskaźniki służące do pomiaru sukcesu, takie jak:
- Czasy reakcji systemu
- Sprawdzanie integralności danych
- Testy funkcjonalności aplikacji
- Walidacja dostępu użytkownika
4. Procedury wycofywania
Podaj szczegółowe kroki powrotu do systemu podstawowego, jeśli wystąpią problemy. Określ warunki, które wywołają wycofanie.
Kontrole gotowości systemu
Przed rozpoczęciem testu failover, kluczowe jest potwierdzenie, że wszystkie kluczowe komponenty są na miejscu. Pomaga to stworzyć optymalne warunki testowe i zmniejsza ryzyko nieoczekiwanych problemów. Skup się na przeglądaniu konfiguracji systemu, sprawdzaniu synchronizacji danych, upewnianiu się, że kopie zapasowe są prawidłowe i testowaniu łączności sieciowej.
Przegląd konfiguracji systemu
Zacznij od sprawdzenia bieżącej konfiguracji systemu:
- Sprawdź przydział procesora, pamięci i pamięci masowej.
- Sprawdź, czy wszystkie niezbędne usługi są uruchomione.
- Sprawdź uprawnienia i kontrolę dostępu.
- Sprawdź dokładnie ustawienia zabezpieczeń.
- Upewniać się narzędzia monitorujące są skonfigurowane poprawnie.
Zapisz te konfiguracje, w tym numery wersji, poziomy poprawek i ustawienia, aby móc je zweryfikować po teście failover. Te kroki zapewniają, że system jest przygotowany do testowania.
Status synchronizacji danych
Po sprawdzeniu konfiguracji systemu należy potwierdzić, czy synchronizacja danych działa zgodnie z oczekiwaniami:
- Zmierz opóźnienie replikacji.
- Sprawdź spójność bazy danych.
- Sprawdź synchronizację systemu plików.
- Sprawdź integralność danych za pomocą sum kontrolnych.
Skup się na wskaźnikach synchronizacji w czasie rzeczywistym. W przypadku większości aplikacji biznesowych opóźnienie replikacji powinno wynosić mniej niż 60 sekund. Dzięki temu dane są gotowe do testu failover.
Kontrola systemu kopii zapasowej
Dokładnie sprawdź system kopii zapasowych, aby upewnić się, że jest gotowy:
Sprzęt komputerowy:
- Sprawdź układ zasilania i chłodzenia.
- Upewnij się, że pojemność i wydajność pamięci masowej spełniają wymagania.
- Sprawdź karty sieciowe.
- Sprawdź zbędne komponenty.
Oprogramowanie:
- Oceń stan systemu operacyjnego.
- Sprawdź, czy zależności aplikacji działają.
- Sprawdź narzędzia i programy narzędziowe do tworzenia kopii zapasowych.
- Sprawdź poprawność działania agentów monitorujących.
Kontrola dostępu:
- Testowanie systemów uwierzytelniania.
- Sprawdź uprawnienia użytkownika.
- Potwierdź ważność certyfikatów bezpieczeństwa.
- Sprawdź połączenia VPN.
Kontrole te mają na celu sprawdzenie, czy system kopii zapasowych jest w pełni sprawny i gotowy do testu przełączania awaryjnego.
Sprawdzenie sieci
Oceń łączność sieciową, stosując następujące kryteria:
| Typ testu | Kryteria akceptacji | Metoda |
|---|---|---|
| Utajenie | Poniżej 50 ms | Testy pingowania |
| Pasmo | Ponad 1 Gbps | testowanie iperf3 |
| Rozdzielczość DNS | Poniżej 100 ms | kop/nslookup |
| Moduł równoważenia obciążenia | Status aktywny/pasywny | Kontrole stanu zdrowia |
Uruchom te testy z różnych segmentów sieci, aby upewnić się, że wszystkie potencjalne ścieżki failover są objęte. Udokumentuj podstawowe metryki wydajności w celu porównania w trakcie i po procesie failover.
Dodatkowo sprawdź, czy redundantne ścieżki sieciowe są skonfigurowane i dostępne. Przetestuj automatyczne przełączanie awaryjne dla komponentów sieciowych, jeśli ma to zastosowanie, i upewnij się, że wszystkie wymagane porty i protokoły są otwarte między witrynami podstawowymi i zapasowymi.
sbb-itb-59e1987
Uruchamianie testu failover
Po zakończeniu kontroli gotowości należy ostrożnie przeprowadzić proces przełączania awaryjnego, aby zminimalizować potencjalne zakłócenia.
Rozpocznij przełączanie awaryjne
- Powiadom interesariuszy co najmniej 15 minut wcześniej.
- Wstrzymaj wszystkie transakcje i sprawdź, czy nie występują opóźnienia replikacji.
- Rozpocznij sekwencję przełączania awaryjnego i zapisz dokładny czas rozpoczęcia.
Uważnie obserwuj, jak system początkowo reaguje. Proces failover powinien zazwyczaj trwać 30–45 sekund. Jeśli trwa dłużej, zbadaj sprawę natychmiast. Po rozpoczęciu procesu przenieś uwagę na monitorowanie dziennika w czasie rzeczywistym, aby identyfikować wszelkie problemy w miarę ich pojawiania się.
Obserwuj logi systemowe
Monitorowanie dzienników systemowych jest kluczowe dla wczesnego wykrywania problemów:
| Typ dziennika | Znaki ostrzegawcze | Alerty krytyczne |
|---|---|---|
| Aplikacja | Przekroczenie limitu czasu połączenia | Awarie usług |
| Baza danych | Błędy replikacji | Uszkodzenie danych |
| Sieć | Utrata pakietów > 1% | Niepowodzenia połączenia |
| Bezpieczeństwo | Opóźnienia uwierzytelniania | Naruszenia dostępu |
Utrzymuj otwarty interfejs wiersza poleceń (CLI), aby śledzić wiadomości w czasie rzeczywistym. Zwróć szczególną uwagę na kody błędów zaczynające się od „FAIL” lub „ERR”, ponieważ często sygnalizują pilne problemy wymagające natychmiastowej uwagi.
Sprawdź witrynę kopii zapasowej
Po zainicjowaniu przełączania awaryjnego należy sprawdzić, czy witryna zapasowa działa prawidłowo:
1. Dostępność usługi
Upewnij się, że wszystkie podstawowe usługi w witrynie kopii zapasowej mają status „AKTYWNY” w ciągu 60 sekund. Zanotuj wszelkie opóźnienia do przeglądu.
2. Wykorzystanie zasobów
Monitoruj następujące kluczowe wskaźniki podczas przejścia:
- Wykorzystanie procesora: Powinien pozostać poniżej 80%.
- Wykorzystanie pamięci: Należy dążyć do wykorzystania mniejszego niż 75%.
- Wejście/wyjście pamięci masowej:Utrzymuj wartość poniżej 2000 IOPS.
- Przepustowość sieci: Należy spodziewać się zużycia na poziomie 40–60% normalnym.
3. Dystrybucja obciążenia
Sprawdź, czy ruch jest prawidłowo kierowany do witryny zapasowej. Sprawdź metryki modułu równoważenia obciążenia, aby upewnić się, że ruch jest równomiernie rozłożony na dostępne zasoby.
Aplikacje testowe i dane
Natychmiast przetestuj kluczowe aplikacje i sprawdź integralność danych:
- Testowanie aplikacji podstawowych:Wykonywanie podstawowych operacji CRUD, testowanie uwierzytelniania użytkowników, sprawdzanie krytycznych przepływów pracy biznesowej i potwierdzanie responsywności interfejsu API.
- Walidacja danych: Zapewnij spójność bazy danych, zweryfikuj integralność systemu plików, potwierdź ostatnie transakcje i przetestuj szybkość pobierania danych.
Skup się najpierw na testowaniu aplikacji o znaczeniu krytycznym dla misji, zanim przejdziesz do systemów drugorzędnych. Udokumentuj wszelkie nieprawidłowości, takie jak czasy reakcji, które odbiegają o więcej niż 20% od pomiarów bazowych.
Testowanie po przełączeniu awaryjnym
Gdy witryna zapasowa jest już uruchomiona i działa, następnym krokiem jest upewnienie się, że podstawowe funkcje biznesowe działają prawidłowo. Obejmuje to dokładne sprawdzenie i weryfikację operacji, aby potwierdzić, że wszystko działa tak, jak powinno.
Kontrola funkcji biznesowych
- Przeprowadź pełny cykl transakcji biznesowych, aby bezproblemowo potwierdzać przepływy pracy i danych, w tym integracje zewnętrzne.
- Przetestuj kluczowe połączenia z systemami zewnętrznymi, które nie zostały objęte wcześniejszymi testami aplikacji.
- Upewnij się, że wszystkie zaplanowane zadania są wykonywane terminowo.
- Sprawdź dokładność systemu raportowania, aby uniknąć jakichkolwiek nieścisłości.
Te kroki pomagają potwierdzić, że środowisko kopii zapasowych może obsługiwać krytyczne operacje bez przerw. Wielokrotne uruchamianie tych walidacji zapewnia stałą wydajność i umożliwia szybkie rozwiązywanie wszelkich problemów.
Przełącz z powrotem do systemu głównego
Po potwierdzeniu, że system kopii zapasowej działa prawidłowo, nadszedł czas na powrót do systemu podstawowego. Wiąże się to z odwróceniem wcześniejszych kroków w celu przywrócenia normalnych operacji.
Rozpocznij proces zwrotu
Powiadom wszystkich zainteresowanych i skoordynuj działania z zespołem technicznym. Przygotuj listę kontrolną, aby śledzić każdy krok procesu, w tym synchronizację bazy danych i czas przełączania aplikacji.
Pamiętaj, aby:
- Potwierdź, że wszystkie krytyczne procesy zostały ukończone.
- Upewnij się, że nie pozostały żadne oczekujące transakcje.
- Udokumentuj tymczasowe zasady wyznaczania tras, aby móc się odwoływać podczas cofania.
- Sprawdź, czy operacje systemowe działają zgodnie z oczekiwaniami.
Sprawdź synchronizację danych
Zapewnij spójność danych pomiędzy systemami, sprawdzając:
- Dokładne odtwarzanie dzienników transakcji bazy danych.
- Pełna synchronizacja zmian w systemie plików.
- Wyrównanie rekordów oznaczonych znacznikiem czasu w różnych systemach.
- Usunięcie plików tymczasowych używanych podczas przełączania awaryjnego.
Przed przystąpieniem do ostatecznego przełączania należy użyć narzędzi, takich jak sumy kontrolne i oprogramowanie porównawcze, aby potwierdzić, że wszystkie dane zmodyfikowane podczas przełączania awaryjnego są zgodne między systemami.
Sprawdź system główny
Przeprowadź dokładną kontrolę stanu, aby potwierdzić, czy system podstawowy jest gotowy:
- Stan infrastruktury:Sprawdź, czy wszystkie komponenty sprzętowe działają.
- Łączność sieciowa:Sprawdź i potwierdź poprawność konfiguracji routingu.
- Usługi aplikacyjne:Uruchom usługi aplikacji we właściwej kolejności.
- Systemy bezpieczeństwa: Upewnij się, że wszystkie środki bezpieczeństwa są aktywne i działają.
Udokumentuj wyniki
Po pełnym przywróceniu działania systemu podstawowego należy zapisać wyniki w celu udoskonalenia przyszłych procesów:
- Metryki testów
Rejestruj kluczowe wskaźniki, takie jak czas trwania przełączania awaryjnego, czas synchronizacji danych, liczbę problemów i porównania wydajności. - Dokumentacja wydania
- Zanotuj wszelkie komunikaty o błędach i ich rozwiązania.
- Szczegółowo opisz podjęte kroki rozwiązywania problemów.
- Oceń wpływ przejścia w tryb failover na działalność biznesową.
- Obszary poprawy
- Identyfikuj nieefektywne procesy i wąskie gardła.
- Podkreśl luki w komunikacji.
- Wskaż obszary, w których można udoskonalić dokumentację.
- Rozwiąż wszelkie napotkane ograniczenia techniczne.
Przechowuj całą dokumentację w scentralizowanym miejscu, do którego zespół zajmujący się usuwaniem skutków awarii będzie miał dostęp w celu przyszłego wykorzystania.
Streszczenie
Manualne testowanie failover wymaga starannego planowania, dokładnych kontroli, precyzyjnego wykonania i płynnego procesu odzyskiwania. Oto podział kluczowych faz:
- Planowanie: Określ cele, zmapuj zależności, przypisz role i zajmij się potencjalnymi ryzykami.
- Weryfikacja:Upewnij się, że infrastruktura jest gotowa, dane są zsynchronizowane, sieci są połączone, a bezpieczeństwo jest nienaruszone.
- Wykonanie:Przeprowadzaj przełączanie awaryjne krok po kroku, monitoruj w czasie rzeczywistym, sprawdzaj funkcjonalność aplikacji i śledź metryki wydajności.
- Powrót do zdrowia: Przywróć podstawowe systemy, potwierdź dokładność danych, upewnij się, że usługi działają i udokumentuj cały proces.
Aby udoskonalić testowanie awaryjne:
- Zaplanuj testy co trzy miesiące.
- Utrzymuj dokumentację na bieżąco.
- Rotacja obowiązków w zespole pozwala budować kompetencje.
- Oceń i udoskonal swój proces po każdym teście.
Dobrze wykonany test failover wzmacnia Twoją zdolność do utrzymania operacji biznesowych podczas zakłóceń. Symulowanie realistycznych scenariuszy w kontrolowanym środowisku zapewnia niezawodne wyniki bez narażania systemów produkcyjnych.