Skontaktuj się z nami

info@serverion.com

Zadzwoń do nas

+1 (302) 380 3902

Najważniejsze wskaźniki monitorowania kopii zapasowych w wielu chmurach

Najważniejsze wskaźniki monitorowania kopii zapasowych w wielu chmurach

Potrzebujesz niezawodnych kopii zapasowych? Zacznij śledzić odpowiednie wskaźniki. Monitorowanie kopii zapasowych w wielu chmurach upraszcza ochronę danych poprzez konsolidację wszystkiego w jednym miejscu. Prawdziwym przełomem jest jednak skupienie się na kluczowych wskaźnikach, które zapewniają niezawodność kopii zapasowych, szybkość odzyskiwania i kontrolę kosztów.

Oto, co należy monitorować:

  • Cel czasu odzyskiwania (RTO): Jak długo systemy mogą pozostać nieczynne, zanim wpłynie to negatywnie na działalność przedsiębiorstwa?
  • Cel punktu odzyskiwania (RPO): Jaki stopień utraty danych jest akceptowalny?
  • Współczynnik powodzenia kopii zapasowej: Czy tworzenie kopii zapasowych przebiega zgodnie z planem?
  • Szybkości przesyłu danych: Jak szybko mogą być przesyłane dane podczas tworzenia kopii zapasowej?
  • Wykorzystanie pamięci masowej: Czy Twoja pamięć masowa zbliża się do limitu?
  • Sprawdzanie integralności danych: Czy dane kopii zapasowej są dokładne i nieuszkodzone?
  • Czas reakcji na incydent: Jak szybko można naprawić awarie?
  • Liczba zasobów chronionych: Czy wszystkie krytyczne systemy są objęte ubezpieczeniem?
  • Zużycie pamięci masowej Backup Vault: Czy skutecznie zarządzasz kosztami magazynowania?
  • Rejestry dostępu i ślady audytu: Kto i kiedy miał dostęp do Twoich kopii zapasowych?

Monitorowanie tych wskaźników pomaga zapobiegać przestojom, utracie danych i nadmiernym wydatkom. Ponadto zapewnia, że system tworzenia kopii zapasowych jest zgodny z potrzebami firmy i wymogami zgodności.

Sesja demonstracyjna „Zapytaj eksperta”: Mistrzowska klasa monitorowania kopii zapasowych w chmurze hybrydowej Veeam ONE | Webinarium

Veeam ONE

1. Cel czasu regeneracji (RTO)

Cel czasu odzyskiwania (RTO) to określenie, jak długo systemy mogą być niedostępne po awarii, zanim zaczną negatywnie wpływać na działalność firmy. Mówiąc prościej, jest to maksymalny czas przestoju, na jaki możesz sobie pozwolić, zanim wszystko będzie musiało wrócić do pełnej sprawności. Kari Rivas, starszy menedżer ds. marketingu produktów w Backblaze, ujmuje to następująco:

"Odzyskiwanie oznacza, że systemy znów działają – są w pełni funkcjonalne – a użytkownicy (pracownicy, klienci itp.) mogą z nich korzystać w taki sam sposób, jak przed wystąpieniem incydentu związanego z danymi"."

Prawidłowe określenie RTO jest kluczowe, ponieważ wiąże plany odzyskiwania danych technicznych bezpośrednio z priorytetami Twojej firmy.

Koszt przestoju często wyznacza cele RTO. Na przykład firmy zajmujące się handlem finansowym zazwyczaj dążą do RTO bliskiego zeru, ponieważ nawet kilka minut offline może kosztować miliony. Z drugiej strony, mniej krytyczne systemy, takie jak archiwa wewnętrzne, mogą wytrzymać przestoje trwające kilka dni bez poważniejszych konsekwencji.

Zastosuj podejście wielopoziomowe w przypadku RTO: Przypisz ścisłe RTO do krytycznych aplikacji i zapewnij większą elastyczność mniej istotnym systemom. Taka strategia pozwala utrzymać koszty odzyskiwania na rozsądnym poziomie, zapewniając jednocześnie ochronę najważniejszych operacji. Współpracuj z kierownikami działów, aby oszacować finansowy wpływ przestoju na każdy system – dzięki temu RTO stanie się wskaźnikiem biznesowym, a nie tylko technicznym.

Regularnie testuj swój "Recovery Time Reality" (RTR) podczas ćwiczeń lub rzeczywistych incydentów. Jeśli Twój RTR stale nie spełnia oczekiwań, oznacza to, że Twój system kopii zapasowych wymaga modernizacji. Na przykład kopie zapasowe na taśmach są notorycznie powolne, ponieważ wymagają fizycznego pobrania i załadowania. Natomiast pamięć masowa w chmurze oferuje natychmiastowy dostęp, co może znacznie skrócić czas odzyskiwania. Ćwiczenia przeciwpożarowe i symulacje komputerowe to doskonałe narzędzia, które pomogą Ci upewnić się, że Twoje cele RTO są realistyczne i osiągalne.

2. Cel punktu odzyskiwania (RPO)

Podczas gdy RTO koncentruje się na akceptowalnym czasie przestoju, RPO koncentruje się na tym, jaki poziom utraty danych jest tolerowany. Zasadniczo RPO mierzy wiek danych, które odzyskasz z ostatniej kopii zapasowej. Na przykład, jeśli Twój RPO wynosi jedną godzinę, przyjmujesz, że w przypadku incydentu może zostać utraconych nawet 60 minut danych. Ta metryka ma kluczowe znaczenie w środowiskach wielochmurowych, gdzie precyzyjne śledzenie jest niezbędne do dostosowania działań odzyskiwania do priorytetów biznesowych.

RPO bezpośrednio wpływa na częstotliwość tworzenia kopii zapasowych. Godzinny RPO oznacza, że kopie zapasowe muszą być tworzone co najmniej co godzinę. W przypadku systemów krytycznych – takich jak bramki płatności czy dokumentacja medyczna – RPO musi być jak najbliższe zeru. Z drugiej strony, mniej istotne dane, takie jak analityka marketingowa czy zarchiwizowane zamówienia zakupu, mogą obsługiwać RPO od 13 do 24 godzin bez powodowania poważnych zakłóceń.

Oto uderzająca statystyka: ponad 721 TP3T firm nie osiąga swoich celów odzyskiwania danych[1]. Często dzieje się tak, ponieważ decyzje dotyczące RPO są traktowane jako czysto techniczne, a nie strategiczne decyzje biznesowe. Kari Rivas, starszy menedżer ds. marketingu produktów w Backblaze, podkreśla to:

"Decyzja o tym, jaki standard spełnić, to wspólna odpowiedzialność. A te standardy… to cele, które muszą osiągnąć zespoły dostawców IT i infrastruktury."

Określenie kosztów minuty przestoju w firmie może pomóc w ustaleniu realistycznych celów RPO.

W środowiskach wielochmurowych, w których wydajność może się różnić w zależności od dostawcy i regionu, monitorowanie Rzeczywisty punkt odzyskiwania (RPA) – faktyczna utrata danych podczas incydentów – ma kluczowe znaczenie. Jeśli Twój system RPA stale nie spełnia oczekiwań, czas zwiększyć częstotliwość tworzenia kopii zapasowych lub zainwestować w lepszą infrastrukturę. Automatyczne, częste tworzenie kopii zapasowych to często jedyny sposób na dotrzymanie rygorystycznych RPO, ponieważ metody ręczne po prostu nie nadążają.

Aby znaleźć równowagę między kosztami a ochroną, określ bardziej rygorystyczne wskaźniki RPO dla systemów krytycznych, takich jak uwierzytelnianie klientów, a łagodniejsze dla danych niekrytycznych, takich jak wewnętrzny inwentarz. To wielopoziomowe podejście gwarantuje ochronę tego, co najważniejsze, bez nadmiernego wydatkowania zasobów.

3. Wskaźnik powodzenia kopii zapasowej

Wskaźnik powodzenia kopii zapasowych odzwierciedla odsetek ukończonych zadań tworzenia kopii zapasowych w porównaniu z tymi, które zakończyły się niepowodzeniem lub zostały pominięte. Można go porównać do raportu o wydajności systemu tworzenia kopii zapasowych. Wysoki wskaźnik powodzenia sygnalizuje, że plan ochrony danych jest realizowany zgodnie z planem, natomiast spadek tego wskaźnika może zakłócić działalność firmy, szczególnie w momentach krytycznych.

Utrzymanie wysokiego wskaźnika powodzenia kopii zapasowych jest kluczowe – w końcu nie da się przywrócić danych, których nigdy nie utworzono kopii zapasowej. W środowiskach multi-cloud monitorowanie tej metryki może być trudne ze względu na konieczność konsolidacji danych od różnych dostawców. Na przykład, AWS Backup aktualizuje CloudWatch co 5 minut liczbą zadań, podczas gdy Google Cloud aktualizuje swoje metryki kopii zapasowych co godzinę. Połączenie tych aktualizacji daje jaśniejszy obraz ogólnej wydajności tworzenia kopii zapasowych.

Do awarii tworzenia kopii zapasowych może prowadzić kilka czynników. Należą do nich konflikty harmonogramu z przerwami konserwacyjnymi (np. w przypadku Amazon FSx lub usług baz danych), brak miejsca na dysku lub problemy z siecią powodujące przerwanie transferów między serwerami. dostawcy chmury. Aby wyprzedzić te problemy, ustaw automatyczne alerty, gdy liczba awarii przekroczy pięć zadań w ciągu godziny. Generowanie raportów trendów z okresu 30 dni lub więcej może pomóc w wykryciu powtarzających się problemów, a nie pojedynczych usterek.

Jeśli awarie nadal występują, rozważ modyfikację podejścia. Przejście na przyrostowe kopie zapasowe na zawsze lub ciągłą ochronę danych (CDP) może zmniejszyć ilość przesyłanych danych, zmniejszając obciążenie systemu. Należy pamiętać, że AWS oznacza zadania jako "WYGASŁE", jeśli nie rozpoczną się w zaplanowanym czasie, co wpływa na wskaźnik powodzenia, nawet jeśli nie wystąpi żaden błąd techniczny. Regularne przeglądanie i dostosowywanie harmonogramów tworzenia kopii zapasowych może pomóc w zapobieganiu konfliktom zasobów w okresach szczytowego zapotrzebowania. Dokładne dostrojenie tych procesów zapewnia niezawodność kopii zapasowych i pozwala monitorować inne kluczowe wskaźniki.

4. Szybkości przesyłania danych

Szybkość transferu danych określa, jak szybko dane kopii zapasowej są przesyłane z jednego punktu do drugiego, co bezpośrednio wpływa na czas tworzenia kopii zapasowych. przepustowość łącza odnosi się do całkowitej przepustowości połączenia sieciowego, przepustowość mierzy rzeczywistą prędkość przesyłania lub pobierania danych. Jak ujęła to Kari Rivas, starsza menedżerka ds. marketingu produktów w Backblaze:

"Przepustowość jest często miarą mającą największe znaczenie dla klientów korzystających z kopii zapasowych i archiwów, ponieważ wskazuje ona na prędkość wysyłania i pobierania danych, jakiej doświadczy użytkownik końcowy"."

Niska przepustowość może zakłócić harmonogramy tworzenia kopii zapasowych i obniżyć wydajność systemu. Niska prędkość transferu oznacza, że tworzenie kopii zapasowych trwa dłużej, co może przełożyć się na godziny produkcyjne. Właśnie tutaj pojawia się koncepcja… okno zapasowe Kluczowe staje się określenie konkretnego przedziału czasowego, w którym kopie zapasowe będą wykonywane bez zakłócania codziennych operacji. Jeśli przepustowość nie jest w stanie obsłużyć obciążenia danymi w tym przedziale czasowym, masz problem. W. Curtis Preston, współpracownik Network World, podkreśla zagrożenia:

"Każdy system pamięci masowej ma możliwość przyjęcia określonej liczby kopii zapasowych dziennie… Brak [monitorowania tego] może spowodować, że tworzenie kopii zapasowych będzie trwało coraz dłużej i będzie się rozciągać na cały dzień roboczy"."

Monitorowanie stawek transferowych jest niezbędne do identyfikacji wąskie gardła sieciowe Zanim doprowadzą do poważniejszych problemów. Utrzymujące się niskie prędkości mogą wskazywać na przeciążenie sieci, ograniczenia sprzętowe, a nawet ograniczanie przepustowości przez dostawcę. Zwróć uwagę na rosnące kolejki – to oznaki, że Twój system ma problemy z nadążaniem za przepływem danych.

Poprawa szybkości transferu często wymaga precyzyjnego dostrojenia konfiguracji. Wielowątkowość to jeden ze sposobów na zwiększenie wydajności poprzez jednoczesną transmisję wielu strumieni danych, co pozwala lepiej wykorzystać dostępną przepustowość. Dostosowanie rozmiarów bloków lub części również może pomóc; większe części zmniejszają obciążenie spowodowane częstymi wywołaniami API, choć wymagają więcej pamięci. Dla organizacji borykających się z krótkimi oknami backupu, przejście na przyrostowe kopie zapasowe na zawsze lub ciągłą ochronę danych (CDP) może być przełomem. Metody te minimalizują ilość przesyłanych danych, zmniejszając obciążenie sieci.

5. Wykorzystanie pamięci masowej

Wykorzystanie pamięci masowej, obok szybkości transferu, odgrywa kluczową rolę w efektywności tworzenia kopii zapasowych. Monitorowanie ilości pamięci masowej wykorzystywanej przez dostawców chmury może pomóc w kontrolowaniu kosztów i uniknięciu nadmiernej alokacji. Regularne monitorowanie przestrzeni na kopie zapasowe pozwala na śledzenie trendów i dostosowywanie pojemności przed osiągnięciem limitów. Na przykład raporty dotyczące wykorzystania kopii zapasowych w Google Cloud wykorzystują regresję liniową opartą na danych historycznych do przewidywania przyszłego zapotrzebowania na pamięć masową, dając administratorom znać, kiedy należy zwiększyć skalę. Ponadto ocena wpływu deduplikacji i terminowego usuwania danych na wydajność pamięci masowej może znacząco wpłynąć zarówno na wydajność, jak i koszty.

Dobrym sposobem na ocenę wydajności deduplikacji i kompresji jest porównanie Rozmiar wirtualny do Zapisane bajty. Jeśli te liczby są niemal identyczne, może to oznaczać, że deduplikacja nie działa tak skutecznie, jak powinna. Narzędzia takie jak AWS Backup aktualizują metryki pamięci masowej w CloudWatch co pięć minut, a Google Cloud odświeża dane w repozytorium kopii zapasowych co godzinę, zapewniając częste aktualizacje stanu pamięci masowej.

Nieusunięcie wygasłych punktów odzyskiwania może prowadzić do niepotrzebnych opłat. Jak wyjaśnia W. Curtis Preston, znany specjalista od tworzenia kopii zapasowych i odzyskiwania danych:

"Jedynym sposobem na zwiększenie pojemności bez konieczności zakupu nowej jest usunięcie starszych kopii zapasowych. Byłoby szkoda, gdyby brak monitorowania pojemności systemu pamięci masowej uniemożliwił spełnienie wymagań dotyczących retencji danych ustalonych przez firmę"."

Monitorowanie wzrostu pojemności pamięci masowej zarówno na poziomie aplikacji, jak i hosta, może wskazać, które zasoby generują koszty. Na przykład, możesz odkryć, że pojedyncza baza danych monopolizuje pamięć masową kopii zapasowych, podczas gdy inne aplikacje ledwo ją wykorzystują. Ta szczegółowa analiza pomaga skoncentrować działania optymalizacyjne tam, gdzie są najbardziej potrzebne. Ustawienie alertów progowych – zazwyczaj na poziomie około 80% – może również dać Ci wystarczająco dużo czasu na podjęcie działań, zanim poziom krytyczny zostanie osiągnięty.

Wreszcie, zrozumienie metryk rozliczeniowych specyficznych dla danego dostawcy jest kluczowe, aby uniknąć niespodzianek. Na przykład AWS Neptune TotalBackupStorageBilled Metryka obejmuje zarówno pamięć ciągłą, jak i migawkową, z dziennym limitem bezpłatnych danych, a Google Cloud umożliwia filtrowanie metryk według typu zasobu. Znajomość tych szczegółów gwarantuje, że korzystasz z odpowiednich poziomów pamięci masowej i kontrolujesz koszty.

6. Kontrole integralności danych

Kontrole integralności danych są niezbędne do zapewnienia dokładności i nienaruszalności danych w kopiach zapasowych przez cały cykl ich życia. Kontrole te opierają się na takich technikach, jak: sumy kontrolne i walidacja skrótu aby potwierdzić, że pliki pozostają nienaruszone podczas przesyłania, przechowywania i pobierania, nawet podczas pracy w środowisku wielu dostawców usług w chmurze.

Opierając się na podstawowych metrykach kopii zapasowych, kontrole integralności pomagają zapewnić bezpieczeństwo danych, nawet podczas ich przenoszenia między różnymi środowiskami chmurowymi. Na przykład, dane przesyłane między dostawcami lub z pamięci ciepłej do zimnej mogą zostać uszkodzone, co może zostać pominięte przez standardowe dzienniki kopii zapasowych. Częściowe punkty odzyskiwania – kopie zapasowe, które zostały zainicjowane, ale nigdy nie zostały w pełni ukończone – stanowią kolejne zagrożenie, ponieważ mogą pozostawić niekompletne lub uszkodzone pliki podczas odzyskiwania.

Nowoczesne platformy chmurowe oferują narzędzia ułatwiające monitorowanie integralności danych w czasie niemal rzeczywistym. Na przykład:, Kopia zapasowa AWS Aktualizuje metryki w CloudWatch co pięć minut, umożliwiając szybką identyfikację i rozwiązywanie potencjalnych problemów. Niektóre platformy rozróżniają nawet statusy takie jak "Zakończono" i "Zakończono z problemami", sygnalizując potrzebę dokładniejszej inspekcji. Z drugiej strony, Oracle Cloud Infrastructure Object Storage Stosuje proaktywne podejście, automatycznie naprawiając uszkodzone dane z wykorzystaniem redundancji. Aby w pełni zweryfikować monitorowanie integralności, kluczowe jest przeprowadzenie rzeczywistych testów przywracania.

Zaplanowane testy przywracania pomagają również mierzyć Rzeczywistość czasu odzyskiwania (RTR) i Rzeczywistość Punktu Odzyskiwania (RPR) – kluczowe wskaźniki skuteczności systemu tworzenia kopii zapasowych w porównaniu z celami odzyskiwania. Testy te dostarczają informacji na temat rzeczywistej skuteczności strategii tworzenia kopii zapasowych.

W celu zapewnienia dodatkowej ochrony należy wdrożyć niezmienna pamięć masowa wykorzystując technologie WORM (Write-Once-Read-Many), takie jak Blokada obiektu Amazon S3, może zapobiec modyfikacji danych po ich zapisaniu. Jest to szczególnie cenne w ochronie przed atakami ransomware. Ważne jest jednak, aby przeskanować dane pod kątem złośliwego oprogramowania lub uszkodzeń przed ich zablokowaniem, aby uniknąć trwałego utrwalenia błędów. Śledzenie Wynik jakości danych, który konsoliduje takie wskaźniki, jak spójność, kompletność i dokładność, może także zapewnić przejrzysty obraz ogólnego stanu danych kopii zapasowej we wszystkich środowiskach chmurowych.

7. Czas reakcji na incydent

Czas reakcji na incydenty mierzy czas między wykryciem awarii a jej rozwiązaniem. Dzieli się go na dwie kluczowe podmetryki: Średni czas potwierdzenia (MTTA), który mierzy, jak szybko Twój zespół reaguje na alerty i Średni czas regeneracji (MTTR), który mierzy czas potrzebny na przywrócenie normalnego działania. Te wskaźniki ściśle współpracują z innymi wskaźnikami wydajności omówionymi wcześniej.

"Gdy początkowe zadanie tworzenia kopii zapasowej się nie powiedzie, istnieje duże prawdopodobieństwo, że kolejne zadania również zakończą się niepowodzeniem. W takim scenariuszu najlepiej zrozumieć przebieg zdarzeń poprzez monitorowanie i powiadomienia". – AWS Prescriptive Guidance

Zdefiniowanie jasnych kryteriów reakcji w oparciu o wagę incydentu jest kluczowe. Organizacje często dostosowują swoje Cele Poziomu Usług (SLO) do poziomów priorytetów, aby zapewnić sprawną obsługę incydentów:

  • P1 (Krytyczny):Potwierdź w ciągu 5 minut, odzyskaj w ciągu 4 godzin
  • P2 (wysoki):Potwierdź w ciągu 15 minut, odzyskaj w ciągu 12 godzin
  • P3 (średni):Potwierdź w ciągu 1 godziny, odzyskaj w ciągu 24 godzin

Silne systemy alarmowe stanowią podstawę skutecznego reagowania na incydenty. Integrując monitorowanie kopii zapasowych z narzędziami takimi jak Amazon CloudWatch lub Google Cloud Monitoring, możesz skonfigurować powiadomienia w czasie rzeczywistym za pośrednictwem usług takich jak Amazon SNS. Na przykład, skonfiguruj alarmy, aby generowały zgłoszenie o wysokim priorytecie, jeśli więcej niż pięć zadań tworzenia kopii zapasowych zakończy się niepowodzeniem w ciągu godziny.

"Niski wskaźnik MTTA oznacza, że alerty docierają do właściwych osób szybko. Wysoki wskaźnik często wskazuje na zmęczenie alertami, przeciążenie powiadomieniami lub niejasne obowiązki". – Wiz

Automatyzacja odgrywa kluczową rolę w realizacji tych celów. Narzędzia takie jak Amazon EventBridge mogą zautomatyzować procesy eskalacji, zapewniając szybkie tworzenie zgłoszeń i spójne śledzenie MTTA. Aby zachować dokładność, kluczowe jest jasne zdefiniowanie znaczenia terminu "potwierdzone" w całym środowisku wielochmurowym, aby wszyscy mieli te same dane dotyczące użytecznych wskaźników.

8. Liczba zasobów chronionych

Wskaźnik Protected Resources Count mierzy liczbę maszyn wirtualnych, baz danych, systemów plików i innych komponentów infrastruktury chronionych przez usługę kopii zapasowej. Jest to kluczowy wskaźnik oceny skuteczności systemu kopii zapasowych w środowisku wielochmurowym. Dokładne zliczanie jest kluczowe dla zapewnienia właściwego zarządzania danymi, zwłaszcza że adopcja wielu chmur przekroczyła 90% zarówno w sektorze prywatnym, jak i publicznym. Monitorowanie tych chronionych zasobów jest obecnie podstawą zgodności i zarządzania w środowiskach chmurowych.

Prawdziwa wartość tej metryki staje się oczywista, gdy porównamy ją z całym inwentarzem infrastruktury. Wiele platform chmurowych oferuje narzędzia do zliczania chronionych zasobów, co pozwala zidentyfikować wszelkie luki w pokryciu. Porównując tę liczbę z całym inwentarzem, można szybko zidentyfikować zasoby, które mogą pozostać niezabezpieczone.

Aby utrzymać przewagę, niezbędne są zautomatyzowane narzędzia do wykrywania. W dynamicznych środowiskach chmurowych stale dodawane są nowe zasoby, a bez automatycznego skanowania niektóre zasoby – często nazywane zasobami "shadow" – mogą omijać zasady tworzenia kopii zapasowych. Na przykład moduł "Zasoby chronione" platformy Azure wyróżnia zasoby, których kopie zapasowe nie zostały jeszcze utworzone, co ułatwia natychmiastowe uzupełnienie tych luk.

Konfigurowanie alertów może dodatkowo usprawnić nadzór. Na przykład możesz skonfigurować CloudWatch lub Google Cloud Monitoring tak, aby wysyłały powiadomienia, gdy odsetek chronionych zasobów spadnie poniżej określonego progu, takiego jak 95% całkowitego stanu zasobów. To proaktywne podejście pomaga wykryć potencjalne luki w zabezpieczeniach, zanim doprowadzą do utraty danych. Dodatkowo, oznaczanie zasobów etykietami takimi jak "BackupTier: Gold" lub "BackupTier: Silver" może usprawnić egzekwowanie zasad i uprościć śledzenie w różnych zespołach lub działach.

Scentralizowane pulpity nawigacyjne to kolejne kluczowe narzędzie do utrzymania widoczności w środowiskach wielochmurowych. Na przykład AWS Backup aktualizuje metryki w CloudWatch co 5 minut, a Google Cloud co godzinę aktualizuje dane o wykorzystaniu pamięci masowej. Korzystając z platform normalizujących formaty danych – takich jak te przetwarzające JSON lub syslog – można zapewnić spójne raportowanie u różnych dostawców chmury. Regularne audyty interfejsów API infrastruktury dodatkowo weryfikują, czy wszystkie zasoby są objęte ochroną, co pomaga zachować zgodność i uniknąć luk w zabezpieczeniach.

9. Zużycie pamięci masowej w skarbcu kopii zapasowych

Monitorowanie wykorzystania pamięci masowej w sejfie zapasowym ma kluczowe znaczenie dla efektywnego zarządzania kosztami i planowania pojemności. Jednym z kluczowych wskaźników do monitorowania jest ilość przechowywanych danych (mierzone w GiB lub TB). Ta metryka pokazuje, ile miejsca jest zajęte, pomagając uniknąć przekroczenia limitów pojemności lub nieoczekiwanych problemów z rozliczeniami.

Innym ważnym wskaźnikiem jest wykorzystanie puli pamięci masowej, który pokazuje stosunek wykorzystanego do dostępnego miejsca w systemie kopii zapasowych. Jeśli wykorzystanie zaczyna zbliżać się do zdefiniowanych progów, należy zwiększyć pojemność lub usunąć nieaktualne kopie zapasowe. Na przykład AWS Backup aktualizuje te metryki co 5 minut za pomocą CloudWatch, podczas gdy Google Cloud odświeża wartości co godzinę i powtarza najnowsze dane co 5 minut.

Ważne jest również monitorowanie minimalna liczba dni retencji Aby zapewnić przechowywanie danych przez wymagany okres. Ponadto śledzenie znaczników czasu pierwszego i ostatniego przywrócenia może pomóc w walidacji cyklu życia kopii zapasowej i potwierdzeniu zgodności z przepisami.

Jednym z potencjalnych czynników kosztowych jest wygasłe punkty odzyskiwania, których nie można usunąć. AWS Backup zapewnia metrykę Liczba wygasłych punktów odzyskiwania, który identyfikuje kopie zapasowe, które powinny zostać usunięte, ale nadal zajmują miejsce. Może to prowadzić do wyższych kosztów przechowywania. Podobnie Liczba punktów odzyskiwania na zimno Metryka ta pomaga potwierdzić, że starsze dane są przenoszone do tańszych warstw archiwów zgodnie z oczekiwaniami. Chociaż przechowywanie w archiwach jest tańsze, warto zauważyć, że koszty odzyskiwania tych danych mogą być wyższe.

Aby utrzymać się na czele, skonfiguruj alerty progowe Do proaktywnego zarządzania. System monitorowania powinien powiadamiać Cię, gdy wykorzystanie pamięci masowej przekroczy ustalone limity lub gdy liczba wygasłych punktów odzyskiwania zacznie rosnąć. Przydatne jest również segmentowanie metryk zużycia według typu zasobu – takiego jak instancje Compute Engine, bazy danych SQL lub systemy Oracle. W ten sposób możesz określić, które obciążenia generują wzrost pamięci masowej i odpowiednio dostosować zasady retencji.

Dla tych, którzy używają Serverion‘Rozwiązania do tworzenia kopii zapasowych w wielu chmurach (Serverion), integracja tych strategii monitorowania może poprawić zarówno wydajność, jak i efektywność kosztową. Praktyki te stanowią podstawę do zagłębienia się w bardziej szczegółowe wskaźniki operacyjne w kolejnych sekcjach.

10. Rejestry dostępu i ślady audytu

Każda czynność związana z infrastrukturą kopii zapasowych – czy to przywracanie danych, zmiana polityki, czy nawet odczyt informacji – musi być skrupulatnie rejestrowana. Dzienniki dostępu i ścieżki audytu zapewniają szczegółowy rejestr tego, kto, kiedy i skąd uzyskiwał dostęp do danych. Ten poziom przejrzystości ma kluczowe znaczenie zarówno dla dochodzeń w sprawie bezpieczeństwa, jak i dla spełnienia wymogów regulacyjnych.

Dzienniki audytu powinny rejestrować wszystkie istotne szczegóły każdego zdarzenia. Obejmują one rolę użytkownika lub IAM, rodzaj wykonanej czynności (np. Przywróć kopię zapasową, Usuń kopię zapasową, Utwórz plan kopii zapasowej), źródłowy adres IP, zasób, którego dotyczy zdarzenie, znacznik czasu oraz wynik czynności. W przypadku długotrwałych procesów usługa Google Cloud Backup and DR generuje dwa oddzielne wpisy w dzienniku: jeden na początku operacji i drugi na jej końcu.

Platformy chmurowe zazwyczaj dzielą logi na dwie kategorie: Dzienniki aktywności administratora do zmian konfiguracji i Dzienniki dostępu do danych W przypadku operacji obejmujących dane wrażliwe. Dzienniki aktywności administratora są zazwyczaj domyślnie włączone, ale dzienniki dostępu do danych często wymagają ręcznej aktywacji. Na przykład w Google Cloud dzienniki dostępu do danych są domyślnie wyłączone (z wyjątkiem BigQuery) ze względu na ich rozmiar. Jednak włączenie tych dzienników ma kluczowe znaczenie dla śledzenia, kto przegląda lub przywraca dane wrażliwe, zapewniając zgodność z przepisami dotyczącymi prywatności.

Aby wzmocnić monitorowanie, skonfiguruj alerty w czasie rzeczywistym dla krytycznych działań, takich jak DeleteBackup. Dodatkowo, kieruj dzienniki do scentralizowanych rozwiązań pamięci masowej, aby spełnić wymagania dotyczące przechowywania, które mogą się wahać od 30 dni do nawet 10 lat, w zależności od standardów zgodności. Opcje scentralizowanego przechowywania danych obejmują platformy takie jak Azure Log Analytics lub Cloud Storage.

W przypadku środowisk wielochmurowych narzędzia takie jak Serverion może uprościć zarządzanie logami. Konsolidując logi z AWS CloudTrail, Azure Activity Logs i Google Cloud Audit Logs w jednym systemie SIEM, możesz uzyskać ujednoliconą widoczność całej infrastruktury kopii zapasowych. Takie podejście nie tylko usprawnia monitorowanie, ale także zwiększa możliwości zachowania zgodności na różnych platformach.

Tabela porównawcza

10 najważniejszych wskaźników kopii zapasowych w wielu chmurach: kategorie, pomiary i progi alertów

10 najważniejszych wskaźników kopii zapasowych w wielu chmurach: kategorie, pomiary i progi alertów

Aby ułatwić zrozumienie, tabela ta podzieliła kluczowe wskaźniki tworzenia kopii zapasowych na trzy kategorie: wydajność, bezpieczeństwo/kondycja i pojemność. Takie grupowanie wskaźników pomaga zidentyfikować potencjalne problemy i zapewnia jasny plan ich rozwiązania. Poniżej znajdziesz dziewięć podstawowych wskaźników, z których każdy opisuje swój cel, sposób pomiaru oraz próg alarmowy, który sygnalizuje konieczność podjęcia działań.

Metryki wydajności Skupiają się na tym, jak szybko tworzone są kopie zapasowe i odzyskiwane dane. Odpowiadają na pytania takie jak: Czy kopie zapasowe są tworzone na czas? Czy dane można odzyskać wystarczająco szybko w sytuacji kryzysowej? Na przykład, jeśli Twój docelowy czas odzyskiwania (RTO) jest ustawiony na 4 godziny, ale rzeczywisty czas odzyskiwania (RTR) regularnie osiąga 6 godzin, to wyraźny sygnał, że Twój system może wymagać gruntownego remontu.

Wskaźniki bezpieczeństwa i zdrowia Monitoruj, czy Twoje kopie zapasowe działają prawidłowo i upewnij się, że Twoje dane pozostają nienaruszone. Na przykład, jeśli wskaźnik powodzenia kopii zapasowych spadnie poniżej 99% lub w ciągu godziny wystąpi więcej niż pięć nieudanych kopii, czas to zbadać.

Metryki pojemności Pomagaj unikać awarii związanych z pamięcią masową poprzez monitorowanie jej wykorzystania. Na przykład, ustawianie alertów, gdy wykorzystanie pamięci masowej osiągnie poziom 80–90%, może zapobiec zakłóceniom spowodowanym brakiem miejsca.

Kategoria Metryczny Cel, powód Przykładowy pomiar Zalecany próg alertu
Występ Cel czasu odzyskiwania (RTO) Upewnij się, że szybkość odzyskiwania odpowiada potrzebom biznesowym Minuty lub godziny na przywrócenie RTR przekracza zdefiniowany przez firmę RTO
Występ Szybkości przesyłania danych (przepustowość) Pomiar prędkości tworzenia kopii zapasowych i przywracania MB/s lub TB/godzinę Poniżej minimalnej prędkości sprzętu
Występ Wykorzystanie okna kopii zapasowej Upewnij się, że tworzenie kopii zapasowych zakończy się w wyznaczonym czasie Czas trwania (GG:MM) > 100% zdefiniowanego okna
Bezpieczeństwo/Zdrowie Współczynnik powodzenia kopii zapasowej Śledź niezawodność ochrony danych % liczba sukcesów/porażek < 99% sukcesu lub > 5 niepowodzeń na godzinę
Bezpieczeństwo/Zdrowie Sprawdzanie integralności danych Sprawdź, czy dane nie są uszkodzone i można je odzyskać Liczba udanych testów < 1 udane przywrócenie w ciągu 24 godzin
Bezpieczeństwo/Zdrowie Wydarzenia dotyczące stanu zdrowia Zidentyfikuj trwałe i przejściowe awarie Zdrowe, niezdrowe, zdegradowane stany Jakikolwiek "trwale niezdrowy" stan
Pojemność Wykorzystanie pamięci masowej Zapobiegaj wyczerpaniu się zapasów % użytych/zapisanych bajtów > pojemność 80–90%
Pojemność Zużycie pamięci masowej Backup Vault Śledź koszty i wykorzystanie pamięci masowej w chmurze GB lub TB Łączna ilość danych przekracza próg budżetowy
Pojemność Liczba chronionych zasobów Upewnij się, że wszystkie kluczowe zasoby są objęte ochroną Liczba chronionych instancji Liczba < oczekiwany zapas

Ta tabela podkreśla, jak ważne jest szybkie działanie w przypadku przekroczenia progów. Monitorowanie tych wskaźników gwarantuje, że system kopii zapasowych pozostanie niezawodny, bezpieczny i gotowy na wszystko, co się wydarzy.

Wniosek

Monitorowanie właściwych wskaźników może zmienić Twoje operacje tworzenia kopii zapasowych w wielu chmurach z prostego reagowania na problemy na proaktywne zapobieganie im. Dzięki monitorowaniu wskaźniki sukcesu zawodowego, wykorzystanie pamięci masowej, I wydajność odzyskiwania, tworzysz sieć bezpieczeństwa, która redukuje ryzyko utraty danych i przestojów.

Omówione przez nas wskaźniki koncentrują się na trzech kluczowych obszarach: ochrona danych, bezpieczeństwo, I kontrola kosztów. Ustawianie alertów progowych i regularne porównywanie rzeczywistych czasów odzyskiwania z docelowymi wartościami RTO (Recovery Time Objective) i RPO (Recovery Point Objective) może pomóc w wykryciu potencjalnych problemów, zanim staną się krytyczne. Jak trafnie zauważa Cody Slingerland, Certyfikowany Praktyk FinOps:

"Nie można naprawić tego, czego się nie mierzy"."

Ta obserwacja podkreśla znaczenie dokładnego monitorowania w celu zapewnienia ciągłości działania przedsiębiorstwa.

Korzystając z tych metryk, można podejmować trafniejsze decyzje dotyczące alokacji zasobów, unikać awaryjnego usuwania danych i zapewniać terminowe tworzenie kopii zapasowych. Kiedy organizacje dokumentują i udostępniają te metryki kierownictwu, często łatwiej jest im uzasadnić modernizację infrastruktury i wykazać wartość swoich systemów tworzenia kopii zapasowych.

Podejmij praktyczne kroki, takie jak ustawienie automatycznych alertów o awariach przekraczających pięć zadań na godzinę, regularne testowanie przywracania w celu weryfikacji RTO i RPO oraz stosowanie wielowymiarowych filtrów w celu identyfikacji platform lub zasobów wymagających uwagi. Dzięki tym działaniom surowe dane przekształcają się w znaczące usprawnienia, wzmacniając infrastrukturę kopii zapasowych.

Wdrożenie tych praktyk monitorowania zapewnia przejrzystość i pewność, niezbędne do efektywnego zarządzania kopiami zapasowymi w wielu chmurach. Dzięki temu zmniejszysz ryzyko, zyskasz kontrolę nad kosztami i pewność, że Twoje dane są bezpieczne.

Często zadawane pytania

Jakie są najważniejsze wskaźniki, które należy monitorować, aby zapewnić pomyślne tworzenie kopii zapasowych w środowisku wielochmurowym?

Monitorowanie odpowiednich wskaźników jest kluczem do płynnego i niezawodnego działania kopii zapasowych w środowisku multi-cloud. Zwróć na to szczególną uwagę. Cele czasu odzyskiwania (RTO) i Cele punktu odzyskiwania (RPO) – te wskaźniki pokazują, jak szybko i skutecznie możesz odzyskać dane w razie potrzeby. Kolejnym kluczowym czynnikiem jest monitorowanie szybkość przesyłu danych i utajenie aby zapewnić terminowe i bezproblemowe tworzenie kopii zapasowych w środowiskach chmurowych.

Ważne jest również śledzenie wykorzystanie pamięci masowej, w tym całkowitą pojemność i dostępną przestrzeń, aby jak najlepiej wykorzystać swoje zasoby. Monitorowanie wskaźniki powodzenia zadań tworzenia kopii zapasowych i całkowita objętość przetworzonych danych może pomóc Ci wcześnie wykryć potencjalne problemy, zanim się nasilą. Dzięki stałemu monitorowaniu tych wskaźników możesz utrzymać niezawodną i wydajną strategię tworzenia kopii zapasowych.

W jaki sposób przedsiębiorstwa mogą zrównoważyć koszty i ochronę przy ustalaniu celów RTO i RPO?

Aby znaleźć właściwą równowagę między kosztami a ochroną podczas ustalania Cel czasu odzyskiwania (RTO) i Cel punktu odzyskiwania (RPO), Pierwszym krokiem jest dogłębna analiza wpływu na biznes. Pomaga ona określić, które aplikacje są absolutnie krytyczne i wymagają najkrótszego RTO i RPO, a które z nich są w stanie obsłużyć dłuższy czas odzyskiwania i pewną utratę danych. Na przykład, krytyczne obciążenia powinny mieć częste kopie zapasowe, podczas gdy mniej istotne dane można przechowywać, korzystając z bardziej ekonomicznych opcji z dłuższymi interwałami tworzenia kopii zapasowych.

Organizując kopie zapasowe w warstwach – w zależności od częstotliwości i typu pamięci masowej – możesz uniknąć niepotrzebnych wydatków związanych z korzystaniem z wysokowydajnej pamięci masowej dla wszystkich danych. Regularne testy odzyskiwania są niezbędne, aby potwierdzić, że docelowe wartości RTO i RPO są osiągalne przy obecnej konfiguracji. Jeśli nie, konieczne może być rozważenie opcji, takich jak przyrostowe kopie zapasowe, deduplikacja lub wydajne narzędzia chmurowe, aby zarządzać kosztami bez obniżania poziomu ochrony.

Serverion upraszcza ten proces dzięki rozwiązaniom do tworzenia kopii zapasowych w wielu chmurach. Niezależnie od tego, czy potrzebujesz wydajnej pamięci masowej SSD do przechowywania danych o znaczeniu krytycznym, czy niedrogiej pamięci masowej do archiwizacji, elastyczne opcje Serverion pozwolą Ci osiągnąć cele RTO i RPO, mieszcząc się w budżecie – a wszystko to bez poświęcania niezawodności i ciągłości działania.

Jak mogę zwiększyć prędkość transferu danych w przypadku kopii zapasowych w wielu chmurach?

Aby zwiększyć prędkość transferu danych w kopiach zapasowych w wielu chmurach, skup się na kilku kluczowych technikach. Zacznij od wykorzystania przetwarzanie równoległe Jednocześnie zmniejszając ilość danych przesyłanych przez sieć. Skonfigurowanie wielu kanałów zapasowych i włączenie kompresji średniego poziomu pozwala maksymalnie wykorzystać przepustowość, a wszystko to bez nadmiernego obciążenia procesora. Kolejna wskazówka? Podziel duże pliki na mniejsze fragmenty – około 1 GB każdy – i przypisz je do oddzielnych kanałów. Dzięki temu wiele strumieni danych może działać jednocześnie, znacznie zwiększając przepustowość.

Łączenie w pary cotygodniowe pełne kopie zapasowe z codzienne przyrostowe kopie zapasowe To kolejne inteligentne podejście. Przesyłając tylko zmienione bloki danych, możesz zaoszczędzić przepustowość i przyspieszyć regularne tworzenie kopii zapasowych. Monitoruj metryki transferu i rozważ planowanie tworzenia kopii zapasowych poza godzinami szczytu, aby uniknąć przeciążenia sieci. Chcesz pójść o krok dalej? Wykorzystanie buforowania brzegowego lub szybkiej pamięci masowej w pobliżu punktu wejścia do chmury może zmniejszyć opóźnienia, dzięki czemu transfery będą jeszcze płynniejsze.

Platforma hostingowa Multi-cloud firmy Serverion obsługuje te metody dzięki swojej solidnej infrastrukturze i globalnie rozproszonym centrom danych, pomagając w szybszym i wydajniejszym tworzeniu kopii zapasowych.

Powiązane wpisy na blogu

pl_PL