Principali parametri per il monitoraggio del backup multi-cloud

Principali parametri per il monitoraggio del backup multi-cloud

Vuoi backup affidabili? Inizia a monitorare le metriche giuste. Il monitoraggio dei backup multi-cloud semplifica la protezione dei dati consolidando tutto in un'unica posizione. Ma la vera svolta sta nel concentrarsi su metriche chiave che garantiscano l'affidabilità dei backup, la rapidità del ripristino e il controllo dei costi.

Ecco cosa monitorare:

  • Obiettivo temporale di ripristino (RTO): Per quanto tempo i sistemi possono rimanere inattivi prima che ciò abbia ripercussioni sull'attività aziendale?
  • Obiettivo del punto di ripristino (RPO): Quanta perdita di dati è accettabile?
  • Percentuale di successo del backup: I backup vengono completati come previsto?
  • Velocità di trasferimento dati: Con quale velocità possono spostarsi i dati durante i backup?
  • Utilizzo dello spazio di archiviazione: Il tuo spazio di archiviazione sta per raggiungere il limite?
  • Controlli di integrità dei dati: I dati di backup sono accurati e integri?
  • Tempo di risposta agli incidenti: Quanto velocemente si possono risolvere i guasti?
  • Numero di risorse protette: Sono coperti tutti i sistemi critici?
  • Consumo di spazio di archiviazione del backup vault: Stai gestendo in modo efficace i costi di stoccaggio?
  • Registri di accesso e tracce di controllo: Chi ha avuto accesso ai tuoi backup e quando?

Il monitoraggio di queste metriche aiuta a prevenire tempi di inattività, perdite di dati e spese eccessive. Inoltre, garantisce che il sistema di backup sia allineato alle esigenze aziendali e ai requisiti di conformità.

Chiedi a un esperto: Masterclass sul monitoraggio del backup su cloud ibrido Veeam ONE | Webinar

Veeam ONE

1. Obiettivo del tempo di ripristino (RTO)

Il Recovery Time Objective (RTO) consiste nel definire per quanto tempo i sistemi possono rimanere inattivi dopo un guasto prima che questo inizi a danneggiare l'azienda. In parole povere, è il tempo di inattività massimo che ci si può permettere prima che tutto torni pienamente operativo. Kari Rivas, Senior Product Marketing Manager di Backblaze, lo spiega così:

""Il ripristino significa che i sistemi sono di nuovo operativi e pienamente funzionanti, e che gli utenti (dipendenti, clienti, ecc.) possono utilizzarli nello stesso modo in cui lo erano prima che si verificasse l'incidente sui dati.""

Ottenere il giusto RTO è fondamentale perché collega direttamente i piani di ripristino tecnico alle priorità aziendali.

Il costo dei tempi di inattività spesso determina gli obiettivi RTO. Ad esempio, le società di trading finanziario in genere puntano a un RTO prossimo allo zero, poiché anche pochi minuti di inattività possono costare milioni. D'altra parte, sistemi meno critici, come gli archivi interni, possono resistere a tempi di inattività per giorni senza conseguenze gravi.

Utilizzare un approccio a livelli per gli RTO: Assegna RTO rigorosi alle applicazioni critiche e consenti maggiore flessibilità ai sistemi meno essenziali. Questa strategia mantiene i costi di ripristino gestibili, garantendo al contempo la protezione delle operazioni più importanti. Collabora con i responsabili di reparto per stimare l'impatto finanziario dei tempi di inattività per ciascun sistema: questo trasforma l'RTO in una metrica orientata al business piuttosto che solo a livello tecnico.

Verifica regolarmente il tuo "Recovery Time Reality" (RTR) durante esercitazioni o incidenti reali. Se il tuo RTR non raggiunge costantemente i risultati sperati, è un segnale che il tuo sistema di backup necessita di un aggiornamento. Ad esempio, i backup su nastro sono notoriamente lenti perché richiedono il recupero e il caricamento fisici. Al contrario, l'archiviazione basata su cloud offre un accesso immediato, che può accelerare notevolmente i tempi di ripristino. Esercitazioni antincendio ed esercitazioni pratiche sono ottimi strumenti per garantire che i tuoi obiettivi RTO siano realistici e raggiungibili.

2. Obiettivo del punto di ripristino (RPO)

Mentre l'RTO si concentra sui tempi di inattività accettabili, l'RPO si concentra sulla quantità di dati persi che può essere tollerata. In sostanza, l'RPO misura l'età dei dati che si recupereranno dall'ultimo backup. Ad esempio, se l'RPO è di un'ora, si riconosce che in caso di incidente potrebbero essere persi fino a 60 minuti di dati. Questa metrica è fondamentale nelle configurazioni multi-cloud, dove un monitoraggio preciso è essenziale per allineare gli sforzi di ripristino alle priorità aziendali.

L'RPO influenza direttamente la frequenza dei backup. Un RPO di un'ora significa che i backup devono essere eseguiti almeno ogni ora. Per i sistemi critici, come i gateway di pagamento o le cartelle cliniche dei pazienti, gli RPO devono essere il più possibile prossimi allo zero. D'altra parte, dati meno cruciali, come le analisi di marketing o gli ordini di acquisto archiviati, possono gestire RPO da 13 a 24 ore senza causare interruzioni significative.

Ecco una statistica sorprendente: oltre il 721% delle aziende non riesce a raggiungere i propri obiettivi di ripristino[1]. Spesso, questo accade perché le decisioni RPO vengono trattate come scelte puramente tecniche piuttosto che strategiche. Kari Rivas, Senior Product Marketing Manager di Backblaze, sottolinea questo aspetto:

""La decisione su quale standard rispettare è una responsabilità condivisa. E quegli standard... sono gli obiettivi che i team IT e i fornitori di infrastrutture devono raggiungere.""

Capire quanto costa alla tua azienda un minuto di inattività può aiutarti a stabilire obiettivi RPO realistici.

Negli ambienti multi-cloud, dove le prestazioni possono variare a seconda dei provider e delle regioni, tenere sotto controllo il tuo Punto di ripristino effettivo (RPA) – l'effettiva perdita di dati durante gli incidenti – è cruciale. Se il tuo RPA fallisce sistematicamente, è il momento di aumentare la frequenza dei backup o investire in un'infrastruttura migliore. I backup automatizzati ad alta frequenza sono spesso l'unico modo per soddisfare rigorosi RPO, poiché i metodi manuali semplicemente non riescono a tenere il passo.

Per trovare un equilibrio tra costi e protezione, assegnate RPO più rigorosi ai sistemi critici come l'autenticazione dei clienti e più permissivi ai dati non critici, come l'inventario interno. Questo approccio a più livelli garantisce la salvaguardia di ciò che conta di più senza spendere eccessivamente in risorse non necessarie.

3. Tasso di successo del backup

Il tasso di successo del backup riflette la percentuale di backup completati rispetto a quelli falliti o saltati. Consideratelo un report sulle prestazioni del vostro sistema di backup. Un tasso di successo elevato indica che il vostro piano di protezione dei dati è sulla buona strada, mentre un calo di questa metrica potrebbe compromettere le operazioni aziendali, soprattutto nei momenti critici.

Mantenere un elevato tasso di successo dei backup è fondamentale: dopotutto, non è possibile ripristinare dati di cui non è mai stato eseguito il backup. Nelle configurazioni multi-cloud, tenere sotto controllo questa metrica può essere complicato a causa della necessità di consolidare i dati provenienti da diversi provider. Ad esempio, AWS Backup aggiorna CloudWatch ogni 5 minuti con il conteggio dei job, mentre Google Cloud aggiorna le sue metriche di backup ogni ora. Combinando questi aggiornamenti si ottiene un quadro più chiaro delle prestazioni complessive del backup.

Diversi fattori possono causare errori di backup. Tra questi, conflitti di pianificazione con finestre di manutenzione (come quelle per Amazon FSx o i servizi di database), esaurimento dello spazio di archiviazione o problemi di rete che causano l'interruzione dei trasferimenti tra fornitori di cloud. Per prevenire questi problemi, imposta avvisi automatici quando i guasti superano i cinque processi in un'ora. L'esecuzione di report sulle tendenze per 30 giorni o più può aiutare a individuare problemi ricorrenti anziché problemi isolati.

Se i guasti persistono, valuta la possibilità di modificare il tuo approccio. Passare a backup incrementali permanenti o alla protezione continua dei dati (CDP) può ridurre il volume di dati trasferiti, alleggerendo il carico sul sistema. Tieni presente che AWS contrassegna i processi come "SCADUTI" se non vengono avviati entro i tempi previsti, il che influisce sul tasso di successo anche in assenza di errori tecnici. Rivedere e modificare regolarmente la pianificazione dei backup può aiutare a prevenire conflitti di risorse durante i periodi di picco. L'ottimizzazione di questi processi garantisce l'affidabilità dei backup, tenendo sotto controllo altre metriche critiche.

4. Velocità di trasferimento dati

Le velocità di trasferimento dei dati determinano la velocità con cui i dati di backup vengono spostati da un punto all'altro, influenzando direttamente il tempo impiegato per completare i backup. Mentre larghezza di banda si riferisce alla capacità totale della tua connessione di rete, capacità di produzione Misura la velocità effettiva con cui i dati vengono caricati o scaricati. Come afferma Kari Rivas, Senior Product Marketing Manager di Backblaze:

""La produttività è spesso la misura più importante per i clienti che si occupano di backup e archiviazione, perché è indicativa delle velocità di caricamento e download che un utente finale sperimenterà.""

Quando la produttività è insufficiente, i backup possono interrompersi e le prestazioni del sistema possono ridursi. Le basse velocità di trasferimento implicano tempi di backup più lunghi, con potenziali ripercussioni sulle ore di produzione. È qui che entra in gioco il concetto di... finestra di backup Diventa cruciale: un intervallo di tempo specifico riservato all'esecuzione dei backup senza interferire con le operazioni quotidiane. Se la capacità di elaborazione non riesce a gestire il carico di dati entro questo intervallo, i problemi sono gravi. W. Curtis Preston, collaboratore di Network World, evidenzia i rischi:

""Ogni sistema di archiviazione è in grado di accettare un certo volume di backup al giorno... Se non si [monitora questo aspetto], i backup possono richiedere sempre più tempo e protrarsi per tutta la giornata lavorativa.""

Tenere d'occhio le velocità di trasferimento è essenziale per identificare colli di bottiglia della rete Prima che si trasformino in problemi più gravi. Velocità persistentemente basse potrebbero indicare congestione della rete, limitazioni hardware o persino limitazioni da parte del provider. Fai attenzione alle code in aumento: sono segnali che il tuo sistema sta faticando a tenere il passo con il flusso di dati.

Migliorare le velocità di trasferimento spesso richiede una messa a punto precisa della configurazione. Il multi-threading è un modo per aumentare le prestazioni trasmettendo più flussi di dati contemporaneamente, sfruttando al meglio la larghezza di banda disponibile. Anche la regolazione delle dimensioni dei blocchi o delle parti può essere utile: parti più grandi riducono il sovraccarico causato dalle frequenti chiamate API, sebbene richiedano più memoria. Per le organizzazioni che devono far fronte a finestre di backup ristrette, il passaggio a backup incrementali permanenti o alla protezione continua dei dati (CDP) può rappresentare una svolta. Questi metodi riducono al minimo la quantità di dati trasferiti, riducendo il carico sulla rete.

5. Utilizzo dello spazio di archiviazione

L'utilizzo dello storage gioca un ruolo fondamentale nell'efficienza del backup, proprio come le velocità di trasferimento. Tenere d'occhio la quantità di storage utilizzata dai vari provider cloud può aiutare a controllare i costi ed evitare l'eccesso di provisioning. Monitorare regolarmente lo spazio di backup consente di individuare le tendenze e di regolare la capacità prima di raggiungere i limiti. Ad esempio, i report sull'utilizzo del backup di Google Cloud utilizzano la regressione lineare basata sui dati storici per prevedere le future esigenze di storage, fornendo agli amministratori un'indicazione precisa su quando effettuare un upgrade. Inoltre, valutare l'impatto della deduplicazione e dell'eliminazione tempestiva sull'efficienza dello storage può avere un impatto significativo sia sulle prestazioni che sui costi.

Un buon modo per valutare l'efficienza della deduplicazione e della compressione è confrontare Dimensione virtuale per Byte memorizzati. Se questi numeri sono quasi identici, potrebbe indicare che la deduplicazione non funziona in modo efficace come dovrebbe. Strumenti come AWS Backup forniscono metriche di storage aggiornate in CloudWatch ogni cinque minuti, mentre Google Cloud aggiorna i dati di storage del vault di backup ogni ora, garantendo aggiornamenti frequenti sullo stato di integrità dello storage.

La mancata rimozione dei punti di ripristino scaduti può comportare addebiti inutili. Come spiega W. Curtis Preston, noto specialista in backup e ripristino:

""L'unico modo per creare capacità aggiuntiva senza dover acquistare altro è eliminare i backup più vecchi. Sarebbe un peccato se il mancato monitoraggio della capacità del sistema di archiviazione impedisse di soddisfare i requisiti di conservazione stabiliti dall'azienda.""

Monitorare la crescita dello storage a livello di applicazione e host può evidenziare quali risorse stanno generando costi. Ad esempio, potresti scoprire che un singolo database sta monopolizzando lo storage di backup, mentre altre applicazioni lo stanno facendo a malapena. Questa analisi dettagliata ti aiuta a concentrare gli sforzi di ottimizzazione dove sono più importanti. L'impostazione di avvisi di soglia, in genere intorno a una capacità di 80%, può anche darti il tempo necessario per agire prima di raggiungere livelli critici.

Infine, comprendere le metriche di fatturazione specifiche del fornitore è fondamentale per evitare sorprese. Ad esempio, AWS Neptune TotalBackupStorageBilled La metrica include sia l'archiviazione continua che quella snapshot, con una quota giornaliera gratuita, mentre Google Cloud consente di filtrare le metriche in base al tipo di risorsa. Conoscere questi dettagli garantisce l'utilizzo dei livelli di archiviazione corretti e il controllo dei costi.

6. Controlli di integrità dei dati

I controlli di integrità dei dati sono essenziali per garantire che i dati sottoposti a backup rimangano accurati e integri durante tutto il loro ciclo di vita. Questi controlli si basano su tecniche come checksum e convalida hash per confermare che i file rimangano intatti durante il trasferimento, l'archiviazione e il recupero, anche quando si lavora su più provider cloud.

Basandosi su metriche di backup fondamentali, i controlli di integrità contribuiscono a garantire la sicurezza dei dati, anche durante lo spostamento tra diversi ambienti cloud. Ad esempio, la transizione dei dati tra provider o il passaggio da un archivio caldo a uno freddo potrebbe riscontrare danneggiamenti che i log di backup standard potrebbero non rilevare. I punti di ripristino parziali, ovvero backup avviati ma mai completati, rappresentano un ulteriore rischio, poiché potrebbero lasciare file incompleti o danneggiati durante il ripristino.

Le moderne piattaforme cloud offrono strumenti per monitorare l'integrità dei dati quasi in tempo reale. Ad esempio, Backup AWS Aggiorna le metriche in CloudWatch ogni cinque minuti, consentendo di identificare e risolvere rapidamente potenziali problemi. Alcune piattaforme distinguono persino tra stati come "Completato" e "Completato con problemi", segnalando quando è necessaria un'analisi più approfondita. D'altro canto, Archiviazione di oggetti dell'infrastruttura Oracle Cloud adotta un approccio proattivo riparando automaticamente i dati danneggiati utilizzando la ridondanza. Per convalidare realmente il monitoraggio dell'integrità, è fondamentale eseguire test di ripristino reali.

I test di ripristino programmati aiutano anche a misurare Realtà del tempo di recupero (RTR) e Realtà del punto di ripristino (RPR) – indicatori chiave delle prestazioni del sistema di backup rispetto agli obiettivi di ripristino. Questi test forniscono informazioni sull'efficacia reale della strategia di backup.

Per una maggiore protezione, implementare archiviazione immutabile utilizzando tecnologie Write-Once-Read-Many (WORM), come Blocco oggetti Amazon S3, può impedire che i dati vengano alterati dopo la scrittura. Questo è particolarmente utile per proteggersi dagli attacchi ransomware. Tuttavia, è importante analizzare i dati alla ricerca di malware o danneggiamenti prima di bloccarli, per evitare di conservare gli errori in modo permanente. Il monitoraggio di un Punteggio di qualità dei dati, che consolida parametri quali coerenza, completezza e accuratezza, può anche offrire un'istantanea chiara dello stato di salute generale dei dati di backup in tutti gli ambienti cloud.

7. Tempo di risposta agli incidenti

Il tempo di risposta agli incidenti misura il tempo che intercorre tra il rilevamento di un guasto e la sua risoluzione. È suddiviso in due sottometriche chiave: Tempo medio di riconoscimento (MTTA), che misura la rapidità con cui il tuo team risponde agli avvisi e Tempo medio di recupero (MTTR), che misura il tempo necessario per ripristinare le normali operazioni. Queste metriche funzionano in sinergia con altri indicatori di performance discussi in precedenza.

""Quando il backup iniziale fallisce, è molto probabile che anche le attività successive falliscano. In uno scenario del genere, è possibile comprendere al meglio il corso degli eventi attraverso il monitoraggio e la notifica." – AWS Prescriptive Guidance

Definire criteri di risposta chiari in base alla gravità dell'incidente è essenziale. Le organizzazioni spesso allineano i propri Obiettivi del Livello di Servizio (SLO) ai livelli di priorità per garantire una gestione efficiente degli incidenti:

  • P1 (Critico): Riconoscimento entro 5 minuti, ripristino entro 4 ore
  • P2 (Alto): Riconoscimento entro 15 minuti, recupero entro 12 ore
  • P3 (Medio): Riconoscimento entro 1 ora, recupero entro 24 ore

Sistemi di allerta efficaci sono la spina dorsale di una risposta efficace agli incidenti. Integrando il monitoraggio dei backup con strumenti come Amazon CloudWatch o Google Cloud Monitoring, è possibile impostare notifiche in tempo reale tramite servizi come Amazon SNS. Ad esempio, è possibile configurare allarmi per attivare un ticket ad alta priorità se più di cinque processi di backup falliscono nell'arco di un'ora.

""Quando l'MTTA è basso, significa che gli avvisi arrivano alle persone giuste, velocemente. Quando è alto, spesso indica stanchezza da avvisi, sovraccarico di notifiche o responsabilità poco chiare." – Wiz

L'automazione gioca un ruolo fondamentale nel raggiungimento di questi obiettivi. Strumenti come Amazon EventBridge possono automatizzare i processi di escalation, garantendo una rapida creazione dei ticket e un monitoraggio MTTA coerente. Per garantire l'accuratezza, è fondamentale definire chiaramente cosa significa "riconosciuto" nell'ambiente multi-cloud, assicurandosi che tutti siano sulla stessa lunghezza d'onda per metriche fruibili.

8. Conteggio delle risorse protette

Il conteggio delle risorse protette misura il numero di macchine virtuali, database, file system e altri componenti infrastrutturali protetti dal servizio di backup. È una metrica chiave per valutare l'efficacia del sistema di backup nell'ambiente multi-cloud. Conteggi accurati sono fondamentali per garantire una corretta governance dei dati, soprattutto perché l'adozione del multi-cloud ha superato il 90% sia nel settore privato che in quello pubblico. Tenere traccia di queste risorse protette è ormai un pilastro fondamentale della conformità e della governance negli ambienti cloud.

Il valore reale di questa metrica diventa chiaro se la si confronta con l'inventario totale dell'infrastruttura. Molte piattaforme cloud forniscono strumenti per contare le risorse protette, consentendo di identificare eventuali lacune nella copertura. Incrociando questo conteggio con l'intero inventario, è possibile individuare rapidamente le risorse che potrebbero rimanere non protette.

Per rimanere al passo con i tempi, gli strumenti di discovery automatizzati sono essenziali. Negli ambienti cloud dinamici, vengono aggiunte costantemente nuove risorse e, senza scansioni automatiche, alcune risorse, spesso chiamate risorse "ombra", possono aggirare i criteri di backup. Ad esempio, la lama "Risorse proteggibili" di Azure evidenzia le risorse di cui non è ancora stato eseguito il backup, semplificando l'immediata risoluzione di queste lacune.

L'impostazione di avvisi può migliorare ulteriormente la supervisione. Ad esempio, è possibile configurare CloudWatch o Google Cloud Monitoring per inviare notifiche se la percentuale di asset protetti scende al di sotto di una soglia, ad esempio 95% dell'inventario totale. Questo approccio proattivo aiuta a individuare potenziali vulnerabilità prima che causino la perdita di dati. Inoltre, l'etichettatura delle risorse con etichette come "BackupTier: Gold" o "BackupTier: Silver" può semplificare l'applicazione delle policy e il monitoraggio tra diversi team o reparti.

Le dashboard centralizzate sono un altro strumento fondamentale per mantenere la visibilità in ambienti multi-cloud. AWS Backup, ad esempio, aggiorna le metriche in CloudWatch ogni 5 minuti, mentre Google Cloud fornisce aggiornamenti orari sull'utilizzo dello storage. Utilizzando piattaforme che normalizzano i formati dei dati, come quelle che acquisiscono JSON o syslog, è possibile garantire report coerenti tra i diversi provider cloud. Audit regolari delle API dell'infrastruttura verificano ulteriormente che tutte le risorse siano coperte, aiutando a mantenere la conformità ed evitare lacune nella protezione.

9. Consumo di spazio di archiviazione del backup vault

Tenere sotto controllo l'utilizzo dello storage del vault di backup è fondamentale per gestire i costi e pianificare la capacità in modo efficace. Una delle metriche chiave da monitorare è volume di dati memorizzati (misurato in GiB o TB). Questa metrica rivela quanto spazio è occupato, aiutandoti a evitare di raggiungere i limiti di capacità o di riscontrare problemi di fatturazione imprevisti.

Un'altra metrica importante è utilizzo del pool di archiviazione, che mostra la percentuale di spazio utilizzato rispetto a quello disponibile nel sistema di backup. Se l'utilizzo inizia a raggiungere le soglie predefinite, è il momento di espandere la capacità o rimuovere i backup obsoleti. Ad esempio, AWS Backup aggiorna queste metriche ogni 5 minuti tramite CloudWatch, mentre Google Cloud aggiorna i valori ogni ora e ripete i dati più recenti ogni 5 minuti.

È inoltre essenziale monitorare giorni minimi di conservazione per garantire che i dati vengano conservati per il periodo richiesto. Inoltre, il monitoraggio dei timestamp del primo e dell'ultimo ripristino può aiutare a convalidare il ciclo di vita del backup e a confermare la conformità alle normative.

Un potenziale fattore di costo è punti di ripristino scaduti che non riescono a eliminare. AWS Backup fornisce la metrica Numero di punti di recupero scaduti, che identifica i backup che avrebbero dovuto essere rimossi ma che occupano ancora spazio. Ciò può comportare costi di archiviazione più elevati. Analogamente, Numero di punti di recupero a freddo Questa metrica aiuta a confermare che i dati più vecchi stanno transitando verso livelli di archiviazione più economici, come previsto. Sebbene l'archiviazione sia più economica, vale la pena notare che i costi di recupero per questi dati potrebbero essere più elevati.

Per rimanere in vantaggio, imposta avvisi di soglia Per una gestione proattiva. Il sistema di monitoraggio dovrebbe avvisare l'utente quando l'utilizzo dello storage supera i limiti impostati o quando il numero di punti di ripristino scaduti inizia ad aumentare. È inoltre utile segmentare le metriche di consumo in base al tipo di risorsa, ad esempio istanze di Compute Engine, database SQL o sistemi Oracle. In questo modo, è possibile individuare i carichi di lavoro che determinano la crescita dello storage e adattare di conseguenza le policy di conservazione.

Per coloro che utilizzano Serverion‘soluzioni di backup multi-cloud (Serverion), l'integrazione di queste strategie di monitoraggio può migliorare sia le prestazioni che l'efficienza dei costi. Queste pratiche gettano le basi per approfondire metriche operative più dettagliate nelle sezioni successive.

10. Registri di accesso e tracce di controllo

Ogni azione che coinvolge l'infrastruttura di backup, che si tratti di ripristinare dati, modificare una policy o anche solo leggere informazioni, deve essere registrata meticolosamente. I log di accesso e gli audit trail forniscono una registrazione dettagliata di chi ha effettuato l'accesso a cosa, quando e da dove. Questo livello di trasparenza è fondamentale sia per le indagini sulla sicurezza che per il rispetto dei requisiti normativi.

I log di audit dovrebbero contenere tutti i dettagli essenziali per ogni evento. Questi includono l'utente o il ruolo IAM coinvolto, il tipo di azione eseguita (ad esempio, RestoreBackup, DeleteBackup, CreateBackupPlan), l'indirizzo IP di origine, la risorsa interessata, il timestamp e l'esito dell'azione. Per i processi di lunga durata, Google Cloud Backup e DR generano due voci di log separate: una all'avvio dell'operazione e un'altra al suo termine.

Le piattaforme cloud solitamente separano i registri in due categorie: Registri delle attività amministrative per modifiche di configurazione e Registri di accesso ai dati per operazioni che coinvolgono dati sensibili. I log delle attività amministrative sono solitamente abilitati per impostazione predefinita, ma i log di accesso ai dati spesso richiedono l'attivazione manuale. Su Google Cloud, ad esempio, i log di accesso ai dati sono disabilitati per impostazione predefinita (ad eccezione di BigQuery) a causa delle loro dimensioni. Tuttavia, l'abilitazione di questi log è fondamentale per tenere traccia di chi visualizza o ripristina dati sensibili, garantendo la conformità alle normative sulla privacy.

Per rafforzare il monitoraggio, imposta avvisi in tempo reale per azioni critiche come DeleteBackup. Inoltre, indirizza i log a soluzioni di archiviazione centralizzate per soddisfare i requisiti di conservazione, che possono variare da 30 giorni a 10 anni, a seconda degli standard di conformità. Le opzioni di archiviazione centralizzata includono piattaforme come Azure Log Analytics o Cloud Storage.

Per gli ambienti multi-cloud, strumenti come Serverion può semplificare la gestione dei log. Consolidando i log di AWS CloudTrail, Azure Activity Logs e Google Cloud Audit Logs in un unico sistema SIEM, è possibile ottenere una visibilità unificata sull'intera infrastruttura di backup. Questo approccio non solo semplifica il monitoraggio, ma migliora anche la capacità di mantenere la conformità su tutte le piattaforme.

Tabella di confronto

Le 10 principali metriche di backup multi-cloud: categorie, misurazioni e soglie di avviso

Le 10 principali metriche di backup multi-cloud: categorie, misurazioni e soglie di avviso

Per semplificare la consultazione, questa tabella organizza le principali metriche di backup in tre categorie: prestazioni, sicurezza/integrità e capacità. Raggruppare le metriche in questo modo aiuta a individuare potenziali problemi e fornisce una chiara roadmap per risolverli. Di seguito sono riportate nove metriche essenziali, ciascuna con il suo scopo, le modalità di misurazione e la soglia di allerta che segnala un problema che richiede attenzione.

Misure delle prestazioni Si concentrano sulla rapidità con cui vengono eseguiti backup e ripristini. Rispondono a domande come: i backup vengono completati nei tempi previsti? I dati possono essere ripristinati abbastanza velocemente durante una crisi? Ad esempio, se il Recovery Time Objective (RTO) è impostato a 4 ore, ma il tempo di ripristino effettivo (RTR) raggiunge regolarmente le 6 ore, è un chiaro segnale che il sistema potrebbe aver bisogno di una revisione.

Metriche di sicurezza e salute Controlla se i tuoi backup funzionano correttamente e assicurati che i tuoi dati rimangano intatti. Ad esempio, se il tasso di successo dei backup scende al di sotto di 99% o se si verificano più di cinque processi falliti in un'ora, è il momento di indagare.

Metriche di capacità Aiutare a prevenire guasti legati allo storage monitorando l'utilizzo. Ad esempio, l'impostazione di avvisi quando l'utilizzo dello storage raggiunge 80-90% può prevenire interruzioni causate dall'esaurimento dello spazio.

Categoria Metrico Scopo Esempio di misurazione Soglia di avviso consigliata
Prestazione Obiettivo del tempo di ripristino (RTO) Garantire che la velocità di ripristino soddisfi le esigenze aziendali Minuti o ore per ripristinare RTR supera l'RTO definito dall'azienda
Prestazione Velocità di trasferimento dati (throughput) Misura la velocità di backup e ripristino MB/s o TB/ora Al di sotto della velocità minima dell'hardware
Prestazione Utilizzo della finestra di backup Assicurarsi che i backup vengano completati nel tempo assegnato Durata (HH:MM) > 100% di finestra definita
Sicurezza/Salute Tasso di successo del backup Monitorare l'affidabilità della protezione dei dati Conteggio successi/fallimenti % < 99% successo o > 5 fallimenti all'ora
Sicurezza/Salute Controlli di integrità dei dati Verificare che i dati non siano danneggiati e siano recuperabili Numero di test riusciti < 1 ripristino riuscito in 24 ore
Sicurezza/Salute Eventi sullo stato di salute Identificare i guasti persistenti rispetto a quelli transitori Stati sani, malsani, degradati Qualsiasi stato "persistentemente malsano"
Capacità Utilizzo dello spazio di archiviazione Prevenire l'esaurimento dello spazio di archiviazione % byte utilizzati/memorizzati > Capacità 80–90%
Capacità Consumo di spazio di archiviazione del backup vault Tieni traccia dei costi e dell'utilizzo dell'archiviazione cloud GB o TB I dati totali superano la soglia di budget
Capacità Conteggio delle risorse protette Assicurarsi che tutte le risorse critiche siano coperte Numero di istanze protette Conteggio < inventario previsto

Questa tabella sottolinea l'importanza di agire rapidamente quando si superano le soglie. Il monitoraggio di queste metriche garantisce che il sistema di backup rimanga affidabile, sicuro e pronto a gestire qualsiasi situazione.

Conclusione

Monitorare le metriche corrette può trasformare le operazioni di backup multi-cloud da una semplice reazione ai problemi a una loro prevenzione proattiva. Monitorando tassi di successo lavorativo, utilizzo dello spazio di archiviazione, E prestazioni di recupero, si crea una rete di sicurezza che riduce il rischio di perdita di dati e tempi di inattività.

Le metriche che abbiamo esaminato si concentrano su tre aree chiave: protezione dei dati, sicurezza, E controllo dei costi. Impostare avvisi di soglia e confrontare regolarmente i tempi di ripristino effettivi con i target RTO (Recovery Time Objective) e RPO (Recovery Point Objective) può aiutare a individuare potenziali problemi prima che diventino critici. Come afferma giustamente Cody Slingerland, FinOps Certified Practitioner:

""Non puoi correggere ciò che non misuri.""

Questa intuizione evidenzia l'importanza di un monitoraggio approfondito per garantire la continuità aziendale.

Utilizzando queste metriche, è possibile prendere decisioni più oculate sull'allocazione delle risorse, evitare eliminazioni di emergenza e garantire che i backup vengano completati nei tempi previsti. Quando le organizzazioni documentano e condividono queste metriche con il management, spesso trovano più facile giustificare gli aggiornamenti dell'infrastruttura e dimostrare il valore dei propri sistemi di backup.

Adotta misure pratiche come l'impostazione di avvisi automatici per guasti che superano i cinque processi all'ora, il test regolare dei ripristini per convalidare RTO e RPO e l'applicazione di filtri multidimensionali per identificare piattaforme o risorse che necessitano di attenzione. Queste azioni trasformano i dati grezzi in miglioramenti significativi, rafforzando l'infrastruttura di backup.

L'adozione di queste pratiche di monitoraggio offre la chiarezza e la sicurezza necessarie per gestire efficacemente i backup multi-cloud. In questo modo, si riducono i rischi, si controllano i costi e si ha la certezza che i dati siano al sicuro.

Domande frequenti

Quali sono le metriche chiave da monitorare per operazioni di backup multi-cloud di successo?

Monitorare le metriche corrette è fondamentale per garantire che le operazioni di backup multi-cloud funzionino senza intoppi e in modo affidabile. Presta molta attenzione a Obiettivi di tempo di ripristino (RTO) e Obiettivi del punto di ripristino (RPO) – queste metriche rivelano la rapidità e l'efficacia con cui è possibile ripristinare i dati quando necessario. Un altro fattore critico è tenere sotto controllo velocità di trasferimento dati e latenza per garantire che i backup vengano eseguiti puntualmente e senza interruzioni nei tuoi ambienti cloud.

È anche importante tenere traccia utilizzo dello spazio di archiviazione, inclusa la capacità totale e lo spazio disponibile, per sfruttare al meglio le tue risorse. Tieni d'occhio percentuali di successo dei lavori di backup e il volume totale di dati elaborati può aiutarti a individuare potenziali problemi in anticipo, prima che degenerino. Monitorando costantemente queste metriche, puoi mantenere una strategia di backup affidabile ed efficiente.

Come possono le aziende bilanciare costi e protezione quando definiscono gli obiettivi RTO e RPO?

Per trovare il giusto equilibrio tra costi e protezione quando si imposta il Obiettivo del tempo di ripristino (RTO) e Obiettivo del punto di ripristino (RPO), Il primo passo è un'analisi approfondita dell'impatto aziendale. Questa aiuta a individuare quali applicazioni sono assolutamente critiche e richiedono i più brevi RTO e RPO, e quali possono gestire tempi di ripristino più lunghi e una certa perdita di dati. Ad esempio, i carichi di lavoro critici dovrebbero essere sottoposti a backup frequenti, mentre i dati meno essenziali possono essere archiviati utilizzando opzioni più economiche con intervalli di backup più lunghi.

Organizzando i backup in livelli, in base alla frequenza e al tipo di storage, puoi evitare i costi inutili derivanti dall'utilizzo di storage ad alte prestazioni per tutti i tuoi dati. Test di ripristino regolari sono essenziali per confermare che gli obiettivi RTO e RPO siano raggiungibili con la configurazione attuale. In caso contrario, potrebbe essere necessario valutare opzioni come backup incrementali, deduplicazione o strumenti cloud-native efficienti per gestire i costi senza compromettere la protezione.

Serverion semplifica questo processo con le sue soluzioni di backup multi-cloud. Che abbiate bisogno di storage SSD ad alte prestazioni per dati mission-critical o di storage a oggetti economico per l'archiviazione, le nostre opzioni flessibili vi consentono di raggiungere i vostri obiettivi RTO e RPO nel rispetto del budget, il tutto senza sacrificare l'affidabilità per la continuità aziendale.

Come posso migliorare la velocità di trasferimento dei dati per i backup multi-cloud?

Per aumentare la velocità di trasferimento dei dati nei backup multi-cloud, concentrati su alcune tecniche chiave. Inizia sfruttando elaborazione parallela riducendo al contempo il volume di dati inviati sulla rete. Configurare più canali di backup e abilitare una compressione di livello medio può sfruttare al meglio la larghezza di banda, il tutto senza sovraccaricare eccessivamente la CPU. Un altro consiglio? Suddividere i file di grandi dimensioni in blocchi più piccoli, di circa 1 GB ciascuno, e assegnare questi blocchi a canali separati. Ciò consente a più flussi di dati di funzionare contemporaneamente, migliorando significativamente la produttività.

Abbinamento backup completi settimanali con backup incrementali giornalieri è un altro approccio intelligente. Trasmettendo solo i blocchi di dati modificati, è possibile risparmiare larghezza di banda e velocizzare le normali attività di backup. Tenete d'occhio le metriche di trasferimento e valutate la possibilità di pianificare i backup durante le ore non di punta per evitare la congestione della rete. Volete fare un ulteriore passo avanti? L'utilizzo di edge caching o di storage ad alta velocità vicino al punto di ingresso nel cloud può ridurre la latenza, rendendo i trasferimenti ancora più fluidi.

La piattaforma di hosting multi-cloud di Serverion supporta questi metodi grazie alla sua solida infrastruttura e ai data center distribuiti a livello globale, aiutandoti a ottenere backup più rapidi ed efficienti.

Post del blog correlati

it_IT