Contactează-ne

info@serverion.com

Sunați-ne

+1 (302) 380 3902

Principalele metrici pentru monitorizarea backup-urilor multi-cloud

Principalele metrici pentru monitorizarea backup-urilor multi-cloud

Doriți copii de rezervă fiabile? Începeți să urmăriți valorile corecte. Monitorizarea backup-urilor în mai multe cloud simplifică protecția datelor prin consolidarea tuturor datelor într-un singur loc. Dar adevărata schimbare constă în concentrarea asupra indicatorilor cheie care asigură fiabilitatea backup-urilor, rapiditatea recuperării și menținerea costurilor sub control.

Iată ce trebuie monitorizat:

  • Obiectiv pentru timpul de recuperare (RTO): Cât timp pot rămâne sistemele nefuncționale înainte ca acest lucru să afecteze afacerea?
  • Obiectiv punct de recuperare (RPO): Cât de multă pierdere de date este acceptabilă?
  • Rata de succes a copiilor de rezervă: Se finalizează copiile de rezervă conform planificării?
  • Rate de transfer de date: Cât de repede se pot mișca datele în timpul copiilor de rezervă?
  • Utilizarea spațiului de stocare: Spațiul tău de stocare se apropie de limită?
  • Verificări ale integrității datelor: Datele tale de rezervă sunt corecte și necorupte?
  • Timp de răspuns la incident: Cât de repede pot fi rezolvate defecțiunile?
  • Număr de resurse protejate: Sunt acoperite toate sistemele critice?
  • Consum de stocare în seiful de backup: Gestionați eficient costurile de depozitare?
  • Jurnale de acces și jurnalele de audit: Cine a accesat copiile de rezervă ale dumneavoastră și când?

Urmărirea acestor indicatori ajută la prevenirea timpilor de nefuncționare, a pierderilor de date și a cheltuielilor excesive. În plus, asigură alinierea sistemului dvs. de backup cu nevoile afacerii și cerințele de conformitate.

Sesiune demonstrativă Întreabă un expert: Masterclass de monitorizare a backup-ului în cloud hibrid Veeam ONE | Webinar

Veeam ONE

1. Obiectivul timpului de recuperare (RTO)

Obiectivul timpului de recuperare (RTO) se referă la definirea duratei de nefuncționare a sistemelor dumneavoastră după o defecțiune, înainte ca aceasta să înceapă să afecteze afacerea. În termeni simpli, este timpul maxim de nefuncționare pe care vi-l puteți permite înainte ca totul să fie din nou complet funcțional. Kari Rivas, manager senior de marketing de produs la Backblaze, o prezintă astfel:

"Recuperarea înseamnă că sistemele sunt din nou funcționale – complet funcționale – iar utilizatorii (angajați, clienți etc.) le pot utiliza în același mod ca înainte de incidentul de date."

Elaborarea corectă a RTO-ului este crucială, deoarece leagă direct planurile de recuperare tehnică de prioritățile afacerii tale.

Costul timpilor de nefuncționare stabilește adesea obiectivele RTO (Recurs la Timp de Recuperare). De exemplu, firmele de tranzacționare financiară își propun de obicei un RTO apropiat de zero, deoarece chiar și câteva minute offline pot costa milioane. Pe de altă parte, sistemele mai puțin critice, cum ar fi arhivele interne, pot rezista la perioade de nefuncționare de zile întregi fără consecințe majore.

Folosește o abordare pe niveluri pentru RTO-uri: Atribuiți RTO-uri stricte aplicațiilor critice și permiteți mai multă flexibilitate sistemelor mai puțin esențiale. Această strategie menține costurile de recuperare gestionabile, asigurând în același timp protejarea celor mai importante operațiuni. Colaborați cu liderii de departamente pentru a estima impactul financiar al timpilor de nefuncționare pentru fiecare sistem - acest lucru transformă RTO-ul într-o metrică axată pe afaceri, mai degrabă decât doar una tehnică.

Testați-vă periodic "Realitatea timpului de recuperare" (RTR) în timpul exercițiilor sau incidentelor reale. Dacă RTR-ul dvs. ratează în mod constant ținta, este un semn că sistemul dvs. de backup are nevoie de un upgrade. De exemplu, backup-urile pe bandă sunt notoriu de lente, deoarece necesită recuperare și încărcare fizică. În schimb, stocarea bazată pe cloud oferă acces instantaneu, ceea ce poate accelera dramatic timpii de recuperare. Exercițiile de incendiu și exercițiile practice sunt instrumente excelente pentru a vă asigura că obiectivele dvs. RTO sunt realiste și realizabile.

2. Obiectivul Punctului de Recuperare (RPO)

În timp ce RTO se concentrează pe timpul de nefuncționare acceptabil, RPO se concentrează pe cât de mult poate fi tolerată pierderea de date. În esență, RPO măsoară vechimea datelor pe care le-ați recupera din ultima copie de rezervă. De exemplu, dacă RPO-ul este de o oră, recunoașteți că până la 60 de minute de date s-ar putea pierde într-un incident. Această metrică este esențială în configurațiile multi-cloud, unde urmărirea precisă este esențială pentru alinierea eforturilor de recuperare cu prioritățile afacerii.

RPO-ul influențează direct frecvența cu care trebuie efectuate backup-urile. Un RPO de o oră înseamnă că backup-urile trebuie executate cel puțin o dată la o oră. Pentru sistemele critice - de exemplu, gateway-urile de plată sau dosarele pacienților - RPO-urile trebuie să fie cât mai aproape de zero. Pe de altă parte, datele mai puțin importante, cum ar fi analizele de marketing sau comenzile de achiziție arhivate, pot gestiona RPO-uri de 13 până la 24 de ore fără a provoca perturbări majore.

Iată o statistică frapantă: peste 72% de companii nu reușesc să își atingă obiectivele de redresare[1]. Adesea, acest lucru se întâmplă deoarece deciziile RPO sunt tratate ca fiind pur tehnice, mai degrabă decât ca alegeri strategice de afaceri. Kari Rivas, Senior Product Marketing Manager la Backblaze, subliniază acest lucru:

"Decizia cu privire la standardul care trebuie îndeplinit este o responsabilitate comună. Iar aceste standarde... sunt obiectivele pe care echipele IT și ale furnizorilor de infrastructură trebuie să le îndeplinească."

Calcularea costului unui minut de nefuncționare a afacerii poate oferi claritate în stabilirea unor obiective RPO realiste.

În mediile multi-cloud, unde performanța poate varia în funcție de furnizor și regiune, este important să monitorizați Punct de recuperare real (RPA) – pierderea efectivă de date în timpul incidentelor – este crucială. Dacă RPA-ul dvs. ratează în mod constant ținta, este timpul fie să creșteți frecvența backup-urilor, fie să investiți într-o infrastructură mai bună. Backup-urile automate, de înaltă frecvență, sunt adesea singura modalitate de a îndeplini RPO-urile stricte, deoarece metodele manuale pur și simplu nu pot ține pasul.

Pentru a găsi un echilibru între cost și protecție, atribuiți RPO-uri mai stricte sistemelor critice, cum ar fi autentificarea clienților, și unele mai permisive datelor necritice, cum ar fi inventarul intern. Această abordare pe niveluri vă asigură că protejați ceea ce contează cel mai mult, fără a cheltui prea mult pe resurse inutile.

3. Rata de succes a copiilor de rezervă

Rata de succes a backup-ului reflectă procentul de joburi de backup finalizate în comparație cu cele care au eșuat sau au fost omise. Gândiți-vă la aceasta ca la un raport de performanță pentru sistemul dvs. de backup. O rată de succes ridicată semnalează că planul dvs. de protecție a datelor este pe drumul cel bun, în timp ce o scădere a acestei valori ar putea perturba operațiunile afacerii, în special în momentele critice.

Menținerea unei rate de succes ridicate a backup-urilor este crucială – la urma urmei, nu puteți restaura date care nu au fost niciodată copiate de rezervă. În configurațiile multi-cloud, monitorizarea acestei valori poate fi dificilă din cauza necesității de a consolida datele de la diferiți furnizori. De exemplu, AWS Backup actualizează CloudWatch la fiecare 5 minute cu numărul de joburi, în timp ce Google Cloud își actualizează valorile de backup orar. Combinarea acestor actualizări vă oferă o imagine mai clară a performanței generale a backup-urilor.

Mai mulți factori pot duce la erori de backup. Printre aceștia se numără conflictele de programare cu ferestrele de mentenanță (cum ar fi cele pentru Amazon FSx sau serviciile de baze de date), epuizarea spațiului de stocare sau problemele de rețea care cauzează pierderi de transferuri între furnizorii de cloud. Pentru a evita aceste probleme, setați alerte automate atunci când erorile depășesc cinci sarcini într-o oră. Rularea rapoartelor de tendință pe o perioadă de 30 de zile sau mai mult poate ajuta la descoperirea problemelor recurente, mai degrabă decât a problemelor singulare.

Dacă erorile persistă, luați în considerare ajustarea abordării. Trecerea la copii de rezervă incrementale-permanente sau la Protecția Continuă a Datelor (CDP) poate reduce volumul de date transferate, reducând solicitarea sistemului dumneavoastră. Rețineți că AWS marchează lucrările ca "EXPIRATE" dacă nu încep în intervalul de timp programat, ceea ce vă afectează rata de succes chiar dacă nu apare nicio eroare tehnică. Revizuirea și ajustarea regulată a programărilor de backup pot ajuta la prevenirea conflictelor de resurse în perioadele de vârf. Reglarea fină a acestor procese asigură că backup-urile rămân fiabile, în timp ce dumneavoastră urmăriți alte valori critice.

4. Rate de transfer de date

Ratele de transfer de date determină cât de repede se deplasează datele de rezervă dintr-un punct în altul, având un impact direct asupra timpului necesar pentru finalizarea copiilor de rezervă. În timp ce lățime de bandă se referă la capacitatea totală a conexiunii la rețea, debitului măsoară viteza reală cu care datele sunt încărcate sau descărcate. După cum spune Kari Rivas, Senior Product Marketing Manager la Backblaze:

"Debitul este adesea unitatea de măsură mai importantă pentru clienții care fac backup și arhivare, deoarece indică vitezele de încărcare și descărcare pe care le va experimenta un utilizator final."

Când randamentul scade, poate perturba programele de backup și poate reduce performanța sistemului. Ratele de transfer lente înseamnă că backup-urile durează mai mult, putând să se extindă în orele de producție. De aici intervine conceptul de... fereastră de rezervă devine crucial – un interval de timp specific rezervat pentru ca backup-urile să se execute fără a interfera cu operațiunile zilnice. Dacă debitul nu poate gestiona încărcarea datelor în această fereastră, aveți probleme. W. Curtis Preston, colaborator la Network World, evidențiază riscurile:

"Fiecare sistem de stocare are capacitatea de a accepta un anumit volum de copii de rezervă pe zi... Nemonitorizarea acestui lucru poate duce la o durată din ce în ce mai lungă a copiilor de rezervă și la prelungirea duratei zilei de lucru."

Urmărirea ratelor de transfer este esențială pentru identificarea blocaje în rețea înainte ca acestea să ducă la probleme mai mari. Vitezele persistente scăzute ar putea indica congestie în rețea, limitări hardware sau chiar limitare a conexiunilor de către furnizorul dvs. Fiți atenți la cozile în creștere - acestea sunt semne că sistemul dvs. se luptă să țină pasul cu fluxul de date.

Îmbunătățirea ratelor de transfer necesită adesea reglarea fină a configurației. Multi-threading-ul este o modalitate de a îmbunătăți performanța prin transmiterea simultană a mai multor fluxuri de date, utilizând mai bine lățimea de bandă disponibilă. Ajustarea dimensiunilor blocurilor sau părților poate fi, de asemenea, de ajutor; părțile mai mari reduc costurile suplimentare cauzate de apelurile API frecvente, deși necesită mai multă memorie. Pentru organizațiile care se confruntă cu ferestre de backup limitate, trecerea la backup-uri incrementale-permanente sau la Protecția Continuă a Datelor (CDP) poate schimba regulile jocului. Aceste metode minimizează cantitatea de date transferate, reducând încărcarea rețelei.

5. Utilizarea spațiului de stocare

Utilizarea spațiului de stocare joacă un rol major în eficiența backup-urilor, alături de ratele de transfer. Monitorizarea spațiului de stocare utilizat de către furnizorii de cloud vă poate ajuta să controlați costurile și să evitați supraaprovizionarea. Monitorizarea regulată a spațiului de backup vă permite să identificați tendințe și să ajustați capacitatea înainte de a atinge limitele. De exemplu, rapoartele de utilizare a backup-urilor de la Google Cloud utilizează regresia liniară bazată pe date istorice pentru a prezice nevoile viitoare de stocare, oferind administratorilor un avertisment cu privire la momentul în care să extindă stocarea. În plus, evaluarea modului în care deduplicarea și ștergerea la timp influențează eficiența stocării poate avea un impact semnificativ atât asupra performanței, cât și asupra costurilor.

O metodă bună de a evalua eficiența deduplicării și a compresiei este prin compararea Dimensiune virtuală la octeți stocați. Dacă aceste numere sunt aproape identice, ar putea semnala că deduplicarea nu funcționează atât de eficient pe cât ar trebui. Instrumente precum AWS Backup oferă valori actualizate ale valorilor de stocare în CloudWatch la fiecare cinci minute, în timp ce Google Cloud reîmprospătează datele de stocare din seiful de backup la fiecare oră, asigurându-vă că aveți actualizări frecvente privind starea spațiului de stocare.

Neeliminarea punctelor de recuperare expirate poate duce la costuri inutile. După cum explică W. Curtis Preston, un cunoscut specialist în backup și recuperare:

"Singura modalitate de a crea capacitate suplimentară fără a cumpăra mai multă este să ștergeți copiile de rezervă mai vechi. Ar fi păcat ca nemonitorizarea capacității sistemului de stocare să ducă la incapacitatea de a îndeplini cerințele de retenție stabilite de compania dumneavoastră."

Monitorizarea creșterii spațiului de stocare, atât la nivel de aplicație, cât și la nivel de gazdă, poate evidenția resursele care generează costuri. De exemplu, ați putea descoperi că o singură bază de date monopolizează spațiul de stocare pentru copii de rezervă, în timp ce alte aplicații abia dacă au un impact negativ. Această perspectivă detaliată vă ajută să concentrați eforturile de optimizare acolo unde contează cel mai mult. Setarea alertelor de prag - de obicei la o capacitate de aproximativ 80% - vă poate oferi, de asemenea, suficient timp pentru a acționa înainte de a atinge nivelurile critice.

În cele din urmă, înțelegerea indicatorilor de facturare specifici furnizorului este crucială pentru a evita surprizele. De exemplu, AWS Neptune Stocare Totală de Copiere de Siguranță Facturată Metrica include atât stocare continuă, cât și stocare instantanee, cu o cotă gratuită zilnică, în timp ce Google Cloud vă permite să filtrați metricile după tipul de resursă. Cunoașterea acestor detalii vă asigură că utilizați nivelurile de stocare corecte și că vă mențineți costurile la zi.

6. Verificări ale integrității datelor

Verificările integrității datelor sunt esențiale pentru a asigura acuratețea și integritatea datelor copiate în copii de rezervă pe tot parcursul ciclului lor de viață. Aceste verificări se bazează pe tehnici precum sume de control și validare hash pentru a confirma că fișierele rămân intacte în timpul transferului, stocării și regăsirii, chiar și atunci când lucrați cu mai mulți furnizori de cloud.

Bazându-se pe indicatorii de bază ai backup-urilor, verificările de integritate ajută la asigurarea securității datelor, chiar și atunci când acestea se mută între diferite medii cloud. De exemplu, tranziția datelor între furnizori sau trecerea de la stocarea la rece la stocarea în cloud ar putea întâmpina corupții pe care jurnalele standard de backup le-ar putea omite. Punctele de recuperare parțială - backup-uri inițiate, dar niciodată finalizate complet - prezintă un alt risc, deoarece ar putea lăsa fișiere incomplete sau corupte în timpul recuperării.

Platformele cloud moderne oferă instrumente care ajută la monitorizarea integrității datelor aproape în timp real. De exemplu, Copiere de rezervă AWS actualizează valorile metrice din CloudWatch la fiecare cinci minute, permițându-vă să identificați și să remediați rapid potențialele probleme. Unele platforme chiar diferențiază între stări precum "Finalizat" și "Finalizat cu probleme", semnalând când este necesară o inspecție mai atentă. Pe de altă parte, Stocarea obiectelor din infrastructura cloud Oracle adoptă o abordare proactivă prin repararea automată a datelor corupte folosind redundanța. Pentru a valida cu adevărat monitorizarea integrității, este esențial să se efectueze teste de restaurare reale.

Testele de restaurare programate ajută, de asemenea, la măsurarea Realitatea timpului de recuperare (RTR) și Punctul de Recuperare Real (RPR) – indicatori cheie ai performanței sistemului dvs. de backup în comparație cu obiectivele dvs. de recuperare. Aceste teste oferă informații despre eficacitatea strategiei dvs. de backup în lumea reală.

Pentru o protecție sporită, implementarea stocare imuabilă folosind tehnologiile Write-Once-Read-Many (WORM), cum ar fi Blocare obiect Amazon S3, poate împiedica modificarea datelor după ce au fost scrise. Acest lucru este deosebit de valoros în protejarea împotriva atacurilor ransomware. Cu toate acestea, este important să scanați datele pentru malware sau corupție înainte de a le bloca pentru a evita păstrarea permanentă a erorilor. Urmărirea unui Scorul de calitate a datelor, care consolidează indicatori precum consecvența, caracterul complet și acuratețea, poate oferi, de asemenea, o imagine clară a stării generale a datelor de rezervă în toate mediile cloud.

7. Timpul de răspuns la incidente

Timpul de răspuns la incidente urmărește durata dintre detectarea unei defecțiuni și rezolvarea acesteia. Este împărțit în două submetrici cheie: Timpul mediu de confirmare (MTTA), care măsoară cât de repede răspunde echipa dvs. la alerte și Timpul mediu de recuperare (MTTR), care măsoară timpul necesar pentru restabilirea funcționării normale. Aceste valori funcționează mână în mână cu alți indicatori de performanță discutați anterior.

"Când jobul inițial de backup eșuează, există o probabilitate mare ca și alte sarcini ulterioare să eșueze. Într-un astfel de scenariu, puteți înțelege cel mai bine cursul evenimentelor prin monitorizare și notificare." – AWS Prescriptive Guidance

Definirea unor criterii clare de răspuns bazate pe gravitatea incidentului este esențială. Organizațiile își aliniază adesea Obiectivele Nivelului de Servicii (SLO) cu nivelurile de prioritate pentru a asigura gestionarea eficientă a incidentelor:

  • P1 (Critic)Confirmați în 5 minute, recuperați în 4 ore
  • P2 (Înalt)Confirmați în termen de 15 minute, recuperați în termen de 12 ore
  • P3 (Mediu)Confirmare în termen de 1 oră, recuperare în termen de 24 de ore

Sistemele puternice de alertare sunt coloana vertebrală a unui răspuns eficient la incidente. Prin integrarea monitorizării backup-urilor cu instrumente precum Amazon CloudWatch sau Google Cloud Monitoring, puteți configura notificări în timp real prin servicii precum Amazon SNS. De exemplu, configurați alarme pentru a declanșa un tichet cu prioritate ridicată dacă mai mult de cinci sarcini de backup eșuează într-o oră.

"Când MTTA este scăzut, înseamnă că alertele ajung rapid la persoanele potrivite. Când este ridicat, indică adesea oboseala alertelor, supraîncărcarea notificărilor sau responsabilități neclare." – Wiz

Automatizarea joacă un rol esențial în atingerea acestor obiective. Instrumente precum Amazon EventBridge pot automatiza procesele de escaladare, asigurând crearea rapidă a tichetelor și urmărirea consistentă a MTTA-urilor. Pentru a menține acuratețea, este vital să definiți clar ce înseamnă "confirmat" în mediul dvs. multi-cloud, asigurându-vă că toată lumea este pe aceeași lungime de undă pentru valori concrete.

8. Numărul de resurse protejate

Numărul de resurse protejate măsoară numărul de mașini virtuale, baze de date, sisteme de fișiere și alte componente de infrastructură protejate de serviciul dvs. de backup. Este o metrică cheie pentru evaluarea cât de bine acoperă sistemul dvs. de backup mediul multi-cloud. Numărările precise sunt cruciale pentru asigurarea unei guvernanțe adecvate a datelor, mai ales că adoptarea multi-cloud a depășit 90% atât în sectorul privat, cât și în cel public. Urmărirea acestor active protejate este acum o piatră de temelie a conformității și guvernanței în mediile cloud.

Valoarea reală a acestei valori devine clară atunci când o comparați cu inventarul total de infrastructură. Multe platforme cloud oferă instrumente pentru numărarea activelor protejate, permițându-vă să identificați orice lacune în acoperire. Prin compararea acestei valori cu întregul inventar, puteți identifica rapid resursele care ar putea rămâne neprotejate.

Pentru a rămâne în frunte, instrumentele de descoperire automată sunt esențiale. În mediile dinamice în cloud, resurse noi sunt adăugate constant, iar fără scanări automate, unele resurse – adesea denumite resurse "din umbră" – pot ocoli politicile de backup. De exemplu, blade-ul "Resurse protejabile" din Azure evidențiază activele care nu au fost încă copiate de rezervă, facilitând remedierea imediată a acestor lacune.

Configurarea alertelor poate îmbunătăți și mai mult supravegherea. De exemplu, puteți configura CloudWatch sau Google Cloud Monitoring să trimită notificări dacă procentul de active protejate scade sub un anumit prag, cum ar fi 95% din inventarul total. Această abordare proactivă vă ajută să identificați potențialele vulnerabilități înainte ca acestea să ducă la pierderi de date. În plus, etichetarea resurselor cu etichete precum "BackupTier: Gold" sau "BackupTier: Silver" poate eficientiza aplicarea politicilor și simplifica urmărirea în diferite echipe sau departamente.

Tablourile de bord centralizate sunt un alt instrument esențial pentru menținerea vizibilității în mediile multi-cloud. AWS Backup, de exemplu, actualizează valorile metrice în CloudWatch la fiecare 5 minute, în timp ce Google Cloud oferă actualizări orare privind utilizarea spațiului de stocare. Prin utilizarea platformelor care normalizează formatele de date - cum ar fi cele care ingerează JSON sau syslog - puteți asigura raportări consecvente între diverși furnizori de cloud. Auditurile regulate ale API-urilor de infrastructură verifică în continuare dacă toate resursele sunt acoperite, ajutându-vă să mențineți conformitatea și să evitați lacunele în protecție.

9. Consumul de stocare în seiful de backup

Monitorizarea utilizării spațiului de stocare din seiful de rezervă este crucială pentru gestionarea eficientă a costurilor și planificarea capacității. Una dintre valorile cheie de urmărit este... volumul de date stocate (măsurat în GiB sau TB). Această metrică arată cât spațiu este ocupat, ajutându-vă să evitați atingerea limitelor de capacitate sau întâmpinarea unor probleme neașteptate de facturare.

O altă metrică importantă este utilizarea bazinului de stocare, care arată procentul de spațiu utilizat față de spațiul disponibil în sistemul dvs. de backup. Dacă utilizarea începe să se apropie de praguri predefinite, este timpul fie să extindeți capacitatea, fie să eliminați backup-urile învechite. De exemplu, AWS Backup actualizează aceste valori la fiecare 5 minute folosind CloudWatch, în timp ce Google Cloud reîmprospătează valorile orar și repetă cele mai recente date la fiecare 5 minute.

De asemenea, este esențial să se monitorizeze zile minime de retenție pentru a asigura păstrarea datelor pe perioada necesară. În plus, urmărirea primei și ultimei marcaje temporale de restaurare poate ajuta la validarea ciclului de viață al backup-ului și la confirmarea conformității cu reglementările.

Un potențial factor de cost este puncte de recuperare expirate care nu pot fi șterse. AWS Backup oferă metrica NumărDePuncteDeRecuperareExpirat, care identifică copiile de rezervă care ar fi trebuit eliminate, dar care încă ocupă spațiu. Acest lucru poate duce la costuri de stocare mai mari. În mod similar, NumărDePuncteDeRecuperareRece Metrica ajută la confirmarea faptului că datele mai vechi sunt în tranziție către niveluri de arhivare mai mici, așa cum a fost prevăzut. Deși stocarea arhivelor este mai ieftină, merită menționat că costurile de recuperare pentru aceste date pot fi mai mari.

Pentru a rămâne în frunte, configurați alerte de prag pentru o gestionare proactivă. Sistemul dvs. de monitorizare ar trebui să vă notifice atunci când utilizarea spațiului de stocare depășește limitele setate sau când numărul de puncte de recuperare expirate începe să crească. De asemenea, este util să segmentați valorile de consum în funcție de tipul de resursă - cum ar fi instanțele Compute Engine, bazele de date SQL sau sistemele Oracle. În acest fel, puteți identifica sarcinile de lucru care determină creșterea spațiului de stocare și puteți ajusta politicile de retenție în consecință.

Pentru cei care folosesc Serverion‘soluțiile de backup multi-cloud ale (Serverion), integrarea acestor strategii de monitorizare poate îmbunătăți atât performanța, cât și eficiența costurilor. Aceste practici pun bazele analizei unor indicatori operaționali mai detaliați în secțiunile următoare.

10. Jurnale de acces și jurnalele de audit

Fiecare acțiune care implică infrastructura dvs. de backup – fie că este vorba de restaurarea datelor, modificarea unei politici sau chiar simpla citire a informațiilor – trebuie înregistrată meticulos. Jurnalele de acces și jurnalele de audit oferă o evidență detaliată a cine a accesat ce, când și de unde. Acest nivel de transparență este esențial atât pentru investigațiile de securitate, cât și pentru îndeplinirea cerințelor de reglementare.

Jurnalele de audit ar trebui să capteze toate detaliile esențiale pentru fiecare eveniment. Acestea includ utilizatorul sau rolul IAM implicat, tipul de acțiune efectuată (de exemplu, RestoreBackup, DeleteBackup, CreateBackupPlan), adresa IP sursă, resursa afectată, marcajul temporal și rezultatul acțiunii. Pentru procesele cu rulare lungă, Google Cloud Backup and DR generează două intrări separate în jurnal: una când operațiunea începe și alta când se termină.

Platformele cloud separă de obicei jurnalele în două categorii: Jurnalele de activitate ale administratorului pentru modificări de configurație și Jurnalele de acces la date pentru operațiuni care implică date sensibile. Jurnalele de activitate ale administratorilor sunt de obicei activate în mod implicit, dar jurnalele de acces la date necesită adesea activare manuală. Pe Google Cloud, de exemplu, jurnalele de acces la date sunt dezactivate în mod implicit (cu excepția BigQuery) din cauza dimensiunii lor. Cu toate acestea, activarea acestor jurnale este crucială pentru urmărirea persoanelor care vizualizează sau restaurează datele sensibile, asigurând respectarea reglementărilor privind confidențialitatea.

Pentru a consolida monitorizarea, configurați alerte în timp real pentru acțiuni critice, cum ar fi DeleteBackup. În plus, direcționați jurnalele către soluții centralizate de stocare pentru a îndeplini cerințele de păstrare, care pot varia de la 30 de zile până la 10 ani, în funcție de standardele de conformitate. Opțiunile de stocare centralizată includ platforme precum Azure Log Analytics sau Cloud Storage.

Pentru mediile multi-cloud, instrumente precum Serverion poate simplifica gestionarea jurnalelor. Prin consolidarea jurnalelor din AWS CloudTrail, Azure Activity Logs și Google Cloud Audit Logs într-un singur sistem SIEM, puteți obține o vizibilitate unificată în întreaga infrastructură de backup. Această abordare nu numai că simplifică monitorizarea, dar îmbunătățește și capacitatea de a menține conformitatea pe toate platformele.

Tabel comparativ

Top 10 metrici pentru backup multi-cloud: Categorii, măsurători și praguri de alertă

Top 10 metrici pentru backup multi-cloud: Categorii, măsurători și praguri de alertă

Pentru a fi mai ușor de urmărit, acest tabel organizează indicatorii cheie de backup în trei categorii: performanță, securitate/sănătate și capacitate. Gruparea acestor indicatori ajută la identificarea problemelor potențiale și oferă o foaie de parcurs clară pentru abordarea acestora. Mai jos, veți găsi nouă indicatori esențiali, fiecare cu scopul său, modul în care este măsurat și pragul de alertă care semnalează că ceva necesită atenție.

Valori de performanță se concentrează pe cât de repede se realizează backup-urile și recuperările. Acestea răspund la întrebări precum: Se finalizează backup-urile la timp? Pot fi restaurate datele suficient de rapid în timpul unei crize? De exemplu, dacă obiectivul timpului de recuperare (RTO) este setat la 4 ore, dar timpul real de recuperare (RTR) atinge în mod regulat 6 ore, este un semn clar că sistemul dvs. ar putea avea nevoie de o revizuire generală.

Indicatori de securitate și sănătate Urmăriți dacă copiile de rezervă funcționează așa cum ar trebui și asigurați-vă că datele rămân intacte. De exemplu, dacă rata de succes a copiilor de rezervă scade sub 99% sau dacă întâmpinați mai mult de cinci sarcini eșuate într-o oră, este timpul să investigați.

Indicatori de capacitate ajută la evitarea defecțiunilor legate de stocare prin monitorizarea utilizării. De exemplu, setarea alertelor atunci când utilizarea spațiului de stocare atinge 80–90% poate preveni întreruperile cauzate de epuizarea spațiului.

Categorie Metric Scop Exemplu de măsurare Pragul de alertă recomandat
Performanţă Obiectiv pentru timpul de recuperare (RTO) Asigurați-vă că viteza de recuperare corespunde nevoilor afacerii Minute sau ore pentru restaurare RTR depășește RTO-ul definit de companie
Performanţă Rate de transfer de date (debit) Măsurați vitezele de backup și restaurare MB/s sau TB/oră Viteză hardware sub minimă
Performanţă Utilizarea ferestrei de rezervă Asigurați-vă că backup-urile se termină în timpul alocat Durata (HH:MM) > 100% din fereastra definită
Securitate/Sănătate Rata de succes a backupului Urmăriți fiabilitatea protecției datelor Numărul de succese/eșecuri % < 99% succes sau > 5 eșecuri pe oră
Securitate/Sănătate Verificări ale integrității datelor Verificați dacă datele sunt intacte și recuperabile Numărul de teste reușite < 1 restaurare reușită în 24 de ore
Securitate/Sănătate Evenimente privind starea de sănătate Identificați defecțiunile persistente versus cele tranzitorii Stări sănătoase, nesănătoase, degradate Orice stare "persistent nesănătoasă"
Capacitate Utilizarea spațiului de stocare Preveniți epuizarea spațiului de stocare % octeți utilizați / stocați Capacitate > 80–90%
Capacitate Consumul de stocare în seiful de backup Urmăriți costurile și utilizarea stocării în cloud GB sau TB Totalul datelor depășește pragul bugetului
Capacitate Numărul de resurse protejate Asigurați-vă că toate activele critice sunt acoperite Numărul de instanțe protejate Număr < inventar așteptat

Acest tabel subliniază importanța acționării rapide atunci când se depășesc pragurile. Monitorizarea acestor valori asigură că sistemul dumneavoastră de backup rămâne fiabil, sigur și pregătit să facă față oricăror situații.

Concluzie

Urmărirea indicatorilor corecți poate schimba operațiunile de backup multi-cloud de la simpla reacție la probleme la prevenirea proactivă a acestora. Prin monitorizare ratele de succes la locul de muncă, utilizarea spațiului de stocare, și performanța de recuperare, creezi o plasă de siguranță care reduce riscul de pierdere a datelor și de întrerupere a activității.

Indicatorii pe care i-am acoperit se concentrează pe trei domenii cheie: protecția datelor, securitate, și controlul costurilor. Setarea alertelor de prag și compararea regulată a timpilor de recuperare efectivi cu obiectivele RTO (Recovery Time Objective - Obiectivul timpului de recuperare) și RPO (Recovery Point Objective - Obiectivul punctului de recuperare) vă pot ajuta să identificați potențialele probleme înainte ca acestea să devină critice. După cum spune pe bună dreptate Cody Slingerland, FinOps Certified Practitioner:

"Nu poți repara ceea ce nu măsori."

Această perspectivă subliniază importanța unei monitorizări amănunțite pentru a asigura continuitatea afacerii.

Prin utilizarea acestor indicatori, puteți lua decizii mai inteligente cu privire la alocarea resurselor, puteți evita ștergerile de urgență și vă puteți asigura că backup-urile sunt finalizate la timp. Atunci când organizațiile documentează și partajează acești indicatori cu conducerea, acestea consideră adesea mai ușor să justifice modernizările infrastructurii și să demonstreze valoarea sistemelor lor de backup.

Luați măsuri practice, cum ar fi setarea de alerte automate pentru erori care depășesc cinci joburi pe oră, testarea regulată a restaurărilor pentru a valida RTO și RPO și aplicarea de filtre multidimensionale pentru a identifica platformele sau resursele care necesită atenție. Aceste acțiuni transformă datele brute în îmbunătățiri semnificative, consolidând infrastructura de backup.

Adoptarea acestor practici de monitorizare vă oferă claritatea și încrederea necesare pentru a gestiona eficient copiile de rezervă multi-cloud. Procedând astfel, veți reduce riscurile, veți controla costurile și veți avea garanția că datele dumneavoastră sunt în siguranță.

Întrebări frecvente

Care sunt indicatorii cheie de monitorizat pentru operațiuni de backup multi-cloud de succes?

Monitorizarea indicatorilor corecți este esențială pentru ca operațiunile de backup multi-cloud să funcționeze fără probleme și în mod fiabil. Acordați o atenție deosebită Obiective de timp de recuperare (RTO) și Obiectivele punctului de recuperare (RPO) – aceste valori arată cât de rapid și eficient vă puteți restaura datele atunci când este nevoie. Un alt factor critic este monitorizarea ratele de transfer de date și latenta pentru a vă asigura că backup-urile se realizează la timp și fără întreruperi în mediile cloud.

De asemenea, este important să urmăriți utilizarea spațiului de stocare, inclusiv capacitatea totală și spațiul disponibil, pentru a profita la maximum de resursele dumneavoastră. Urmăriți ratele de succes ale lucrărilor de backup și volumul total de date procesate vă poate ajuta să identificați potențialele probleme din timp, înainte ca acestea să escaladeze. Prin monitorizarea constantă a acestor indicatori, puteți menține o strategie de backup fiabilă și eficientă.

Cum pot companiile să echilibreze costurile și protecția atunci când stabilesc obiective RTO și RPO?

Pentru a găsi echilibrul potrivit între cost și protecție atunci când vă configurați Obiectiv pentru timpul de recuperare (RTO) și Obiectiv punct de recuperare (RPO), primul pas este o analiză amănunțită a impactului asupra afacerii. Aceasta vă ajută să identificați care aplicații sunt absolut critice și necesită cel mai scurt RTO și RPO și care pot gestiona timpi de recuperare mai lungi și unele pierderi de date. De exemplu, sarcinile de lucru critice ar trebui să aibă copii de rezervă frecvente, în timp ce datele mai puțin esențiale pot fi stocate folosind opțiuni mai economice, cu intervale de backup mai lungi.

Prin organizarea copiilor de rezervă pe niveluri – în funcție de frecvență și tipul de stocare – puteți evita cheltuielile inutile legate de utilizarea spațiului de stocare de înaltă performanță pentru toate datele dvs. Testele de recuperare regulate sunt esențiale pentru a confirma că obiectivele RTO și RPO sunt realizabile cu configurația actuală. Dacă nu sunt, este posibil să fie nevoie să explorați opțiuni precum copii de rezervă incrementale, deduplicare sau instrumente eficiente native în cloud pentru a gestiona costurile fără a compromite protecția.

Serverion simplifică acest proces cu soluțiile sale de backup multi-cloud. Indiferent dacă aveți nevoie de stocare SSD de înaltă performanță pentru date critice sau de stocare de obiecte la un preț accesibil pentru arhivare, opțiunile lor flexibile vă permit să vă îndepliniți obiectivele RTO și RPO, rămânând în același timp în limita bugetului - toate acestea fără a sacrifica fiabilitatea pentru continuitatea afacerii.

Cum pot îmbunătăți vitezele de transfer de date pentru backup-urile multi-cloud?

Pentru a crește vitezele de transfer de date în backup-urile multi-cloud, concentrați-vă pe câteva tehnici cheie. Începeți prin a valorifica procesare paralelă reducând în același timp volumul de date trimise prin rețea. Configurarea mai multor canale de backup și activarea compresiei la nivel mediu pot maximiza lățimea de bandă, totul fără a solicita prea mult procesorul. Un alt sfat? Împărțiți fișierele mari în bucăți mai mici - de aproximativ 1 GB fiecare - și atribuiți aceste bucăți unor canale separate. Acest lucru permite ca mai multe fluxuri de date să funcționeze simultan, îmbunătățind semnificativ debitul.

Împerechere copii de rezervă complete săptămânale cu copii de rezervă incrementale zilnice este o altă abordare inteligentă. Prin transmiterea doar a blocurilor de date modificate, puteți economisi lățime de bandă și puteți accelera sarcinile obișnuite de backup. Urmăriți valorile metrice de transfer și luați în considerare programarea backup-urilor în afara orelor de vârf pentru a evita congestia rețelei. Doriți să mergeți mai departe? Utilizarea cache-ului de la margine sau a stocării de mare viteză în apropierea punctului de intrare în cloud poate reduce latența, făcând transferurile și mai fluide.

Platforma de găzduire multi-cloud de la Serverion acceptă aceste metode cu infrastructura sa robustă și centrele de date distribuite la nivel global, ajutându-vă să realizați copii de rezervă mai rapide și mai eficiente.

Postări de blog conexe

ro_RO