Principaux indicateurs de surveillance des sauvegardes multicloud
Vous souhaitez des sauvegardes fiables ? Commencez par suivre les bons indicateurs. La surveillance des sauvegardes multicloud simplifie la protection des données en centralisant toutes les informations. Mais le véritable atout réside dans le suivi d'indicateurs clés garantissant la fiabilité des sauvegardes, la rapidité de la restauration et la maîtrise des coûts.
Voici ce qu'il faut surveiller :
- Objectif de temps de récupération (RTO) : Combien de temps les systèmes peuvent-ils rester hors service avant que cela n'ait un impact sur l'activité ?
- Objectif de point de récupération (RPO) : Quel niveau de perte de données est acceptable ?
- Taux de réussite des sauvegardes : Les sauvegardes se déroulent-elles comme prévu ?
- Débits de transfert de données : À quelle vitesse les données peuvent-elles être transférées lors des sauvegardes ?
- Utilisation du stockage : Votre espace de stockage approche-t-il de sa limite ?
- Contrôles d'intégrité des données : Vos données de sauvegarde sont-elles exactes et non corrompues ?
- Délai de réponse aux incidents : Dans quel délai les pannes peuvent-elles être résolues ?
- Nombre de ressources protégées : Tous les systèmes critiques sont-ils couverts ?
- Consommation de stockage du coffre-fort de sauvegarde : Gérez-vous efficacement vos coûts de stockage ?
- Journaux d'accès et pistes d'audit : Qui a accédé à vos sauvegardes et quand ?
Le suivi de ces indicateurs permet de prévenir les interruptions de service, les pertes de données et les dépenses excessives. De plus, il garantit que votre système de sauvegarde est adapté aux besoins de l'entreprise et aux exigences de conformité.
Séance de démonstration avec un expert : Masterclass Veeam ONE Hybrid Cloud Backup Monitoring | Webinaire

1. Objectif de temps de récupération (RTO)
L'objectif de temps de récupération (RTO) consiste à définir la durée maximale d'indisponibilité de vos systèmes après une panne avant que celle-ci n'impacte négativement votre activité. En d'autres termes, il s'agit du temps d'indisponibilité maximal que vous pouvez vous permettre avant que tout ne soit de nouveau pleinement opérationnel. Kari Rivas, responsable marketing produit senior chez Backblaze, l'explique ainsi :
" La récupération signifie que les systèmes sont de nouveau opérationnels et pleinement fonctionnels, et que les utilisateurs (employés, clients, etc.) peuvent les utiliser de la même manière qu'avant l'incident de données. "
Bien définir votre RTO est crucial car cela lie directement vos plans de reprise technique à vos priorités commerciales.
Le coût d'une interruption de service détermine souvent vos objectifs de RTO (Return To Time). Par exemple, les sociétés de trading financier visent généralement un RTO proche de zéro, car même quelques minutes d'indisponibilité peuvent coûter des millions. En revanche, les systèmes moins critiques, comme les archives internes, peuvent supporter une interruption de service de plusieurs jours sans conséquences majeures.
Adoptez une approche par paliers pour les RTO : Attribuez des RTO stricts aux applications critiques et accordez plus de flexibilité aux systèmes moins essentiels. Cette stratégie permet de maîtriser les coûts de reprise tout en garantissant la protection de vos opérations les plus importantes. Collaborez avec les responsables de service pour estimer l'impact financier d'une interruption de service pour chaque système ; ainsi, le RTO devient un indicateur de performance axé sur les besoins de l'entreprise plutôt qu'un simple critère technique.
Testez régulièrement votre " Temps de Reprise Réel " (TRR) lors d'exercices ou d'incidents réels. Si votre TRR est systématiquement inférieur à la cible, cela indique que votre système de sauvegarde nécessite une mise à niveau. Par exemple, les sauvegardes sur bande sont réputées pour leur lenteur, car elles requièrent une récupération et un chargement physiques. À l'inverse, le stockage dans le cloud offre un accès instantané, ce qui peut considérablement accélérer les temps de reprise. Les exercices d'incendie et les simulations sont d'excellents outils pour garantir que vos objectifs de TRR sont réalistes et atteignables.
2. Objectif de point de récupération (RPO)
Alors que le RTO se concentre sur le temps d'indisponibilité acceptable, le RPO se focalise sur la quantité de données pouvant être perdues. Concrètement, le RPO mesure l'âge des données récupérables à partir de la dernière sauvegarde. Par exemple, avec un RPO d'une heure, vous reconnaissez qu'une perte de données pouvant atteindre 60 minutes est possible en cas d'incident. Cet indicateur est crucial dans les environnements multicloud, où un suivi précis est indispensable pour aligner les efforts de récupération sur les priorités métier.
L'objectif de point de récupération (RPO) influe directement sur la fréquence des sauvegardes. Un RPO d'une heure signifie que les sauvegardes doivent être effectuées au moins toutes les heures. Pour les systèmes critiques, comme les plateformes de paiement ou les dossiers patients, les RPO doivent être aussi proches de zéro que possible. En revanche, les données moins critiques, telles que les analyses marketing ou les commandes archivées, peuvent supporter des RPO de 13 à 24 heures sans interruption majeure.
Voici une statistique frappante : plus de 721 millions d’entreprises (TP3T) n’atteignent pas leurs objectifs de reprise après sinistre[1]. Souvent, cela s’explique par le fait que les décisions relatives au RPO sont perçues comme des choix purement techniques plutôt que comme des choix stratégiques. Kari Rivas, responsable marketing produit senior chez Backblaze, le souligne :
" La décision concernant la norme à respecter est une responsabilité partagée. Et ces normes… sont les objectifs que les équipes des fournisseurs de services informatiques et d’infrastructure doivent atteindre. "
Déterminer le coût d'une minute d'indisponibilité pour votre entreprise peut vous aider à définir des objectifs RPO réalistes.
Dans les environnements multicloud, où les performances peuvent varier selon les fournisseurs et les régions, il est important de surveiller votre Point de récupération réel (RPA) La perte de données réelle lors d'incidents est cruciale. Si votre système RPA échoue systématiquement, il est temps d'augmenter la fréquence des sauvegardes ou d'investir dans une infrastructure plus performante. Les sauvegardes automatisées à haute fréquence sont souvent le seul moyen de respecter des objectifs de point de récupération (RPO) stricts, car les méthodes manuelles ne peuvent tout simplement pas suivre le rythme.
Pour un équilibre optimal entre coût et protection, attribuez des RPO plus stricts aux systèmes critiques, comme l'authentification client, et des RPO plus souples aux données non critiques, telles que l'inventaire interne. Cette approche par paliers vous permet de protéger vos données les plus importantes sans gaspiller de ressources inutiles.
3. Taux de réussite des sauvegardes
Le taux de réussite des sauvegardes correspond au pourcentage de sauvegardes effectuées avec succès par rapport à celles qui ont échoué ou ont été ignorées. Il s'agit d'un indicateur de performance pour votre système de sauvegarde. Un taux de réussite élevé signifie que votre plan de protection des données est sur la bonne voie, tandis qu'une baisse de cet indicateur peut perturber les opérations commerciales, notamment lors de moments critiques.
Maintenir un taux de réussite élevé pour les sauvegardes est crucial : impossible de restaurer des données qui n'ont jamais été sauvegardées. Dans les environnements multicloud, le suivi de cet indicateur peut s'avérer complexe en raison de la nécessité de consolider les données provenant de différents fournisseurs. Par exemple, AWS Backup met à jour CloudWatch toutes les 5 minutes avec le nombre de tâches, tandis que Google Cloud met à jour ses indicateurs de sauvegarde toutes les heures. La combinaison de ces mises à jour offre une vision plus claire des performances globales des sauvegardes.
Plusieurs facteurs peuvent entraîner des échecs de sauvegarde. Il s'agit notamment des conflits de planification avec les fenêtres de maintenance (comme celles d'Amazon FSx ou des services de bases de données), du manque d'espace de stockage ou de problèmes réseau provoquant des interruptions de transfert entre les sauvegardes. fournisseurs de cloud. Pour anticiper ces problèmes, configurez des alertes automatiques qui se déclenchent lorsque plus de cinq échecs surviennent en une heure. L'analyse des tendances sur 30 jours ou plus permet de déceler les problèmes récurrents plutôt que les incidents isolés.
Si les échecs persistent, envisagez de modifier votre approche. Le passage à des sauvegardes incrémentales permanentes ou à la protection continue des données (CDP) peut réduire le volume de données transférées et ainsi alléger la charge sur votre système. Sachez qu'AWS marque les tâches comme " EXPIRÉES " si elles ne démarrent pas dans les délais prévus, ce qui impacte votre taux de réussite même en l'absence d'erreur technique. Un examen et un ajustement réguliers des planifications de sauvegarde permettent d'éviter les conflits de ressources lors des pics d'activité. L'optimisation de ces processus garantit la fiabilité de vos sauvegardes tout en vous permettant de surveiller d'autres indicateurs clés.
4. Débits de transfert de données
Les débits de transfert de données déterminent la vitesse à laquelle les données de sauvegarde se déplacent d'un point à un autre, ce qui a un impact direct sur la durée des sauvegardes. bande passante fait référence à la capacité totale de votre connexion réseau, débit Elle mesure la vitesse réelle de chargement et de téléchargement des données. Comme l'explique Kari Rivas, responsable marketing produit senior chez Backblaze :
" Le débit est souvent la mesure la plus importante pour les clients de sauvegarde et d'archivage, car il est révélateur des vitesses de téléchargement et d'envoi dont bénéficiera l'utilisateur final. "
Lorsque le débit est insuffisant, cela peut perturber les planifications de sauvegarde et dégrader les performances du système. Des vitesses de transfert lentes signifient que les sauvegardes prennent plus de temps, ce qui peut empiéter sur les heures de production. C'est là qu'intervient le concept de fenêtre de sauvegarde Il devient crucial de définir un laps de temps précis réservé aux sauvegardes afin qu'elles n'interfèrent pas avec les opérations quotidiennes. Si votre débit ne permet pas de gérer la charge de données dans ce laps de temps, vous risquez de rencontrer des difficultés. W. Curtis Preston, contributeur chez Network World, souligne les risques :
" Chaque système de stockage a la capacité d'accepter un certain volume de sauvegardes par jour… Ne pas [surveiller cela] peut entraîner des sauvegardes de plus en plus longues et un empiètement sur la journée de travail. "
Le suivi des taux de transfert est essentiel pour identifier goulots d'étranglement du réseau Avant que cela n'entraîne des problèmes plus importants, une connexion internet constamment lente peut indiquer une congestion du réseau, des limitations matérielles, voire une limitation de bande passante par votre fournisseur d'accès. Surveillez l'allongement des files d'attente : c'est le signe que votre système peine à gérer le flux de données.
Améliorer les débits de transfert nécessite souvent d'optimiser la configuration. Le multithreading est une solution pour optimiser les performances en transmettant simultanément plusieurs flux de données, ce qui permet une meilleure utilisation de la bande passante disponible. Ajuster la taille des blocs ou des segments peut également s'avérer utile ; des segments plus volumineux réduisent la surcharge liée aux appels API fréquents, même s'ils consomment davantage de mémoire. Pour les organisations confrontées à des délais de sauvegarde serrés, le passage à des sauvegardes incrémentales permanentes ou à la protection continue des données (CDP) peut faire toute la différence. Ces méthodes minimisent la quantité de données transférées, réduisant ainsi la charge sur le réseau.
5. Utilisation du stockage
L'utilisation du stockage joue un rôle majeur dans l'efficacité des sauvegardes, au même titre que les vitesses de transfert. Surveiller votre consommation de stockage chez vos fournisseurs cloud vous permet de maîtriser vos coûts et d'éviter le surdimensionnement. Un suivi régulier de l'espace de sauvegarde vous permet d'identifier les tendances et d'ajuster la capacité avant d'atteindre les limites. Par exemple, les rapports d'utilisation des sauvegardes de Google Cloud utilisent une régression linéaire basée sur les données historiques pour prédire les besoins futurs en stockage, informant ainsi les administrateurs du moment opportun pour augmenter la capacité. De plus, évaluer l'impact de la déduplication et de la suppression rapide sur l'efficacité du stockage peut avoir un impact significatif sur les performances et les coûts.
Une bonne façon d'évaluer l'efficacité de la déduplication et de la compression consiste à comparer les Taille virtuelle à Octets stockés. Si ces chiffres sont quasiment identiques, cela peut indiquer que la déduplication n'est pas aussi efficace qu'elle le devrait. Des outils comme AWS Backup fournissent des indicateurs de stockage mis à jour dans CloudWatch toutes les cinq minutes, tandis que Google Cloud actualise les données de stockage de Backup Vault toutes les heures, vous assurant ainsi un suivi régulier de l'état de votre stockage.
Ne pas supprimer les points de restauration expirés peut engendrer des frais inutiles. Comme l'explique W. Curtis Preston, spécialiste reconnu en sauvegarde et restauration :
" Le seul moyen de créer de la capacité supplémentaire sans en acheter de nouvelle est de supprimer les anciennes sauvegardes. Il serait regrettable que le défaut de surveillance de la capacité de votre système de stockage vous empêche de respecter les exigences de conservation fixées par votre entreprise. "
Le suivi de la croissance du stockage, tant au niveau des applications qu'au niveau des hôtes, permet d'identifier les ressources qui génèrent le plus de coûts. Par exemple, vous pourriez constater qu'une seule base de données monopolise le stockage de sauvegarde, tandis que les autres applications n'y contribuent que très peu. Ces informations détaillées vous aident à concentrer vos efforts d'optimisation là où ils sont les plus pertinents. La définition d'alertes de seuil – généralement autour d'une capacité de 80% – vous donne également le temps d'agir avant d'atteindre des niveaux critiques.
Enfin, il est crucial de comprendre les indicateurs de facturation propres à chaque fournisseur afin d'éviter les mauvaises surprises. Par exemple, ceux d'AWS Neptune. TotalBackupStockageFacturé Cette métrique inclut le stockage continu et le stockage par instantané, avec un quota gratuit quotidien. Google Cloud vous permet de filtrer les métriques par type de ressource. Ces informations vous garantissent d'utiliser les niveaux de stockage adaptés et de maîtriser vos coûts.
6. Contrôles d'intégrité des données
Les contrôles d'intégrité des données sont essentiels pour garantir que les données sauvegardées restent exactes et non corrompues tout au long de leur cycle de vie. Ces contrôles s'appuient sur des techniques telles que… sommes de contrôle et validation du hachage afin de garantir l'intégrité des fichiers lors du transfert, du stockage et de la récupération, même en cas d'utilisation de plusieurs fournisseurs de cloud.
En s'appuyant sur des indicateurs de sauvegarde essentiels, les contrôles d'intégrité contribuent à garantir la sécurité de vos données, même lors de leurs transferts entre différents environnements cloud. Par exemple, les données transférées d'un fournisseur à l'autre ou passant d'un stockage chaud à un stockage froid peuvent subir des corruptions que les journaux de sauvegarde standard pourraient ne pas détecter. Les points de restauration partiels (sauvegardes initiées mais jamais terminées) représentent un autre risque, car ils peuvent entraîner la présence de fichiers incomplets ou corrompus lors de la restauration.
Les plateformes cloud modernes offrent des outils permettant de surveiller l'intégrité des données en temps quasi réel. Par exemple, Sauvegarde AWS CloudWatch met à jour les indicateurs toutes les cinq minutes, ce qui vous permet d'identifier et de résoudre rapidement les problèmes potentiels. Certaines plateformes font même la distinction entre les statuts, comme " Terminé " et " Terminé avec des problèmes ", signalant ainsi la nécessité d'une analyse plus approfondie. Par ailleurs, Oracle Cloud Infrastructure Object Storage Ce système adopte une approche proactive en réparant automatiquement les données corrompues grâce à la redondance. Pour valider pleinement la surveillance de l'intégrité, il est essentiel d'effectuer des tests de restauration concrets.
Les tests de restauration planifiés permettent également de mesurer Réalité du temps de récupération (RTR) et Réalité du point de récupération (RPR) – Indicateurs clés de la performance de votre système de sauvegarde par rapport à vos objectifs de restauration. Ces tests permettent d'évaluer l'efficacité réelle de votre stratégie de sauvegarde.
Pour une protection accrue, la mise en œuvre stockage immuable en utilisant les technologies WORM (Write-Once-Read-Many), telles que Verrouillage d'objet Amazon S3, Cela permet d'empêcher la modification des données après leur écriture. C'est particulièrement précieux pour se protéger contre les attaques de rançongiciels. Cependant, il est important d'analyser les données à la recherche de logiciels malveillants ou de corruption avant de les verrouiller afin d'éviter de conserver les erreurs de manière permanente. Score de qualité des données, qui consolide des indicateurs tels que la cohérence, l'exhaustivité et l'exactitude, peut également offrir un aperçu clair de l'état général de vos données de sauvegarde dans tous les environnements cloud.
sbb-itb-59e1987
7. Délai de réponse aux incidents
Le temps de réponse aux incidents mesure la durée entre la détection d'une panne et sa résolution. Il se décompose en deux sous-indicateurs clés : Délai moyen de réponse (MTTA), qui mesure la rapidité avec laquelle votre équipe réagit aux alertes, et Temps moyen de récupération (MTTR), Ce paramètre permet d'évaluer le temps nécessaire au rétablissement du fonctionnement normal. Ces indicateurs sont étroitement liés aux autres indicateurs de performance évoqués précédemment.
" Lorsqu'une tâche de sauvegarde initiale échoue, il est fort probable que les tâches suivantes échouent également. Dans ce cas, la surveillance et les notifications constituent le meilleur moyen de comprendre le déroulement des événements. " – Recommandations AWS
Il est essentiel de définir des critères de réponse clairs en fonction de la gravité des incidents. Les organisations alignent souvent leurs objectifs de niveau de service (SLO) sur les niveaux de priorité afin de garantir une gestion efficace des incidents.
- P1 (Critique)Accusé de réception dans les 5 minutes, rétablissement dans les 4 heures
- P2 (Élevé)Accusé de réception dans les 15 minutes, rétablissement dans les 12 heures
- P3 (Moyen)Accusé de réception sous 1 heure, rétablissement sous 24 heures
Des systèmes d'alerte robustes sont essentiels à une réponse efficace aux incidents. En intégrant la surveillance des sauvegardes à des outils comme Amazon CloudWatch ou Google Cloud Monitoring, vous pouvez configurer des notifications en temps réel via des services tels qu'Amazon SNS. Par exemple, configurez des alarmes pour déclencher un ticket prioritaire si plus de cinq tâches de sauvegarde échouent en une heure.
" Un MTTA faible signifie que vos alertes parviennent rapidement aux bonnes personnes. Un MTTA élevé indique souvent une saturation des alertes, une surcharge de notifications ou des responsabilités mal définies. " – Wiz
L'automatisation joue un rôle crucial dans l'atteinte de ces objectifs. Des outils comme Amazon EventBridge permettent d'automatiser les processus d'escalade, garantissant ainsi une création rapide des tickets et un suivi constant du MTTA. Pour assurer la précision des données, il est essentiel de définir clairement ce que signifie " pris en charge " dans votre environnement multicloud, afin que tous les acteurs partagent la même compréhension des indicateurs clés de performance.
8. Nombre de ressources protégées
Le nombre de ressources protégées mesure le nombre de machines virtuelles, de bases de données, de systèmes de fichiers et autres composants d'infrastructure protégés par votre service de sauvegarde. Il s'agit d'un indicateur clé pour évaluer l'efficacité de votre système de sauvegarde au sein de votre environnement multicloud. Un comptage précis est essentiel pour garantir une gouvernance des données adéquate, d'autant plus que l'adoption du multicloud a dépassé les 901 000 ressources (901 000 000) dans les secteurs public et privé. Le suivi de ces actifs protégés est désormais un pilier de la conformité et de la gouvernance dans les environnements cloud.
L'intérêt réel de cet indicateur se révèle lorsqu'on le compare à l'ensemble de votre infrastructure. De nombreuses plateformes cloud proposent des outils pour recenser les ressources protégées, ce qui permet d'identifier les éventuelles lacunes de protection. En croisant ce décompte avec l'ensemble de votre inventaire, vous pouvez rapidement repérer les ressources potentiellement non protégées.
Pour garder une longueur d'avance, les outils de découverte automatisée sont essentiels. Dans les environnements cloud dynamiques, de nouvelles ressources sont constamment ajoutées et, sans analyses automatisées, certaines ressources – souvent qualifiées de " ressources fantômes " – peuvent échapper aux politiques de sauvegarde. Par exemple, le panneau " Ressources protégeables " d'Azure met en évidence les actifs qui ne sont pas encore sauvegardés, ce qui permet de corriger facilement et immédiatement ces lacunes.
La mise en place d'alertes permet d'améliorer encore votre supervision. Par exemple, vous pouvez configurer CloudWatch ou Google Cloud Monitoring pour recevoir des notifications si le pourcentage d'actifs protégés descend en dessous d'un seuil, tel que 95% de votre inventaire total. Cette approche proactive vous aide à détecter les vulnérabilités potentielles avant qu'elles n'entraînent une perte de données. De plus, l'attribution d'étiquettes aux ressources, comme " Niveau de sauvegarde : Or " ou " Niveau de sauvegarde : Argent ", peut simplifier l'application des politiques et faciliter le suivi entre les différentes équipes ou services.
Les tableaux de bord centralisés constituent un autre outil essentiel pour maintenir la visibilité sur les environnements multicloud. Par exemple, AWS Backup met à jour les métriques dans CloudWatch toutes les 5 minutes, tandis que Google Cloud fournit des mises à jour horaires sur l'utilisation du stockage. En utilisant des plateformes qui normalisent les formats de données – comme celles qui ingèrent du JSON ou des journaux système – vous garantissez des rapports cohérents entre les différents fournisseurs de cloud. Des audits réguliers des API d'infrastructure permettent de vérifier que toutes les ressources sont couvertes, contribuant ainsi à maintenir la conformité et à éviter les failles de sécurité.
9. Consommation de stockage du coffre-fort de sauvegarde
Il est crucial de surveiller l'utilisation du stockage des coffres-forts de sauvegarde pour maîtriser les coûts et planifier efficacement les capacités. L'un des indicateurs clés à suivre est le volume de données stockées (Mesurée en Gio ou To). Cette métrique indique l'espace occupé, vous aidant ainsi à éviter les dépassements de capacité ou les problèmes de facturation inattendus.
Un autre indicateur important est Utilisation du pool de stockage, Ce graphique indique le pourcentage d'espace utilisé par rapport à l'espace disponible dans votre système de sauvegarde. Si l'utilisation approche des seuils prédéfinis, il est temps d'augmenter la capacité ou de supprimer les sauvegardes obsolètes. Par exemple, AWS Backup met à jour ces indicateurs toutes les 5 minutes via CloudWatch, tandis que Google Cloud actualise les valeurs toutes les heures et répète les dernières données toutes les 5 minutes.
Il est également essentiel de surveiller jours de rétention minimum Afin de garantir la conservation des données pendant la période requise, il est essentiel de suivre les dates et heures de première et dernière restauration. De plus, cela permet de valider le cycle de vie de vos sauvegardes et de confirmer leur conformité à la réglementation.
Un facteur de coût potentiel est points de récupération expirés qui ne peuvent pas être supprimés. AWS Backup fournit cette métrique Nombre de points de récupération expirés, qui identifie les sauvegardes qui auraient dû être supprimées mais qui occupent encore de l'espace. Cela peut entraîner des coûts de stockage plus élevés. De même, Nombre de points de récupération froids Cet indicateur permet de confirmer que les données les plus anciennes sont bien transférées vers des niveaux d'archivage moins coûteux, comme prévu. Bien que le stockage d'archives soit moins cher, il convient de noter que les coûts de récupération de ces données peuvent être plus élevés.
Pour garder une longueur d'avance, mettez en place alertes de seuil Pour une gestion proactive, votre système de surveillance doit vous avertir lorsque l'utilisation du stockage dépasse les limites définies ou lorsque le nombre de points de récupération expirés commence à augmenter. Il est également utile de segmenter les indicateurs de consommation par type de ressource, comme les instances Compute Engine, les bases de données SQL ou les systèmes Oracle. Vous pouvez ainsi identifier les charges de travail qui entraînent une augmentation de la consommation de stockage et adapter les politiques de rétention en conséquence.
Pour ceux qui utilisent Serverion‘les solutions de sauvegarde multicloud de (ServerionL’intégration de ces stratégies de surveillance peut améliorer à la fois la performance et la rentabilité. Ces pratiques jettent les bases d’une analyse plus détaillée des indicateurs opérationnels dans les sections suivantes.
10. Journaux d'accès et pistes d'audit
Chaque action concernant votre infrastructure de sauvegarde – qu'il s'agisse de restauration de données, de modification d'une politique ou même de simple consultation d'informations – doit être méticuleusement consignée. Les journaux d'accès et les pistes d'audit fournissent un enregistrement détaillé des accès : qui a accédé à quoi, quand et depuis où. Ce niveau de transparence est essentiel pour les enquêtes de sécurité et le respect des exigences réglementaires.
Les journaux d'audit doivent consigner tous les détails essentiels de chaque événement. Cela inclut l'utilisateur ou le rôle IAM concerné, le type d'action effectuée (par exemple, Restauration de sauvegarde, Suppression de sauvegarde, Création d'un plan de sauvegarde), l'adresse IP source, la ressource impactée, l'horodatage et le résultat de l'action. Pour les processus de longue durée, Google Cloud Backup and DR génère deux entrées de journal distinctes : une au début de l'opération et une autre à sa fin.
Les plateformes cloud séparent généralement les journaux en deux catégories : Journaux d'activité de l'administrateur pour les modifications de configuration et Journaux d'accès aux données Pour les opérations impliquant des données sensibles, les journaux d'activité d'administration sont généralement activés par défaut, tandis que les journaux d'accès aux données nécessitent souvent une activation manuelle. Sur Google Cloud, par exemple, ces derniers sont désactivés par défaut (sauf pour BigQuery) en raison de leur taille. Or, leur activation est essentielle pour suivre les personnes qui consultent ou restaurent des données sensibles et garantir ainsi la conformité aux réglementations en matière de protection des données.
Pour renforcer votre surveillance, configurez des alertes en temps réel pour les actions critiques telles que la suppression de sauvegarde. De plus, acheminez les journaux vers des solutions de stockage centralisées afin de respecter les exigences de conservation, qui peuvent varier de 30 jours à 10 ans selon les normes de conformité. Parmi les options de stockage centralisé, citons des plateformes comme Azure Log Analytics ou Cloud Storage.
Pour les environnements multicloud, des outils comme Serverion La gestion des journaux peut être simplifiée. En consolidant les journaux d'AWS CloudTrail, d'Azure Activity Logs et de Google Cloud Audit Logs dans un système SIEM unique, vous bénéficiez d'une visibilité unifiée sur l'ensemble de votre infrastructure de sauvegarde. Cette approche rationalise non seulement la surveillance, mais renforce également votre capacité à garantir la conformité sur toutes les plateformes.
Tableau comparatif
Les 10 principaux indicateurs de sauvegarde multicloud : catégories, mesures et seuils d’alerte
Pour plus de clarté, ce tableau organise les principaux indicateurs de sauvegarde en trois catégories : performance, sécurité/intégrité et capacité. Ce regroupement permet d’identifier les problèmes potentiels et de définir une stratégie claire pour les résoudre. Vous trouverez ci-dessous neuf indicateurs essentiels, chacun accompagné de son objectif, de sa méthode de mesure et du seuil d’alerte signalant un problème nécessitant une intervention.
Indicateurs de performance Il est essentiel de se concentrer sur la rapidité des sauvegardes et des restaurations. Cela permet de répondre à des questions telles que : les sauvegardes sont-elles effectuées dans les délais ? Les données peuvent-elles être restaurées suffisamment rapidement en cas de crise ? Par exemple, si votre objectif de temps de restauration (RTO) est fixé à 4 heures, mais que votre temps de restauration réel (RTR) atteint régulièrement 6 heures, c’est un signe évident que votre système pourrait nécessiter une refonte.
Indicateurs de sécurité et de santé Surveillez le bon fonctionnement de vos sauvegardes et assurez-vous de l'intégrité de vos données. Par exemple, si votre taux de réussite de sauvegarde descend en dessous de 991 TP3T ou si vous constatez plus de cinq échecs de sauvegarde en une heure, il est temps d'enquêter.
Indicateurs de capacité Surveillez l'utilisation du stockage pour éviter les pannes. Par exemple, configurez des alertes lorsque l'utilisation atteint 80 à 901 TP3T afin de prévenir les interruptions dues à un manque d'espace.
| Catégorie | Métrique | Objectif | Exemple de mesure | Seuil d'alerte recommandé |
|---|---|---|---|---|
| Performance | Objectif de temps de récupération (RTO) | S'assurer que la vitesse de récupération réponde aux besoins de l'entreprise | Quelques minutes ou quelques heures pour rétablir | Le RTR dépasse le RTO défini par l'entreprise |
| Performance | Débits de transfert de données | Mesurer les vitesses de sauvegarde et de restauration | MB/s ou To/heure | Vitesse matérielle inférieure à la vitesse minimale requise |
| Performance | Utilisation de la fenêtre de sauvegarde | Assurez-vous que les sauvegardes se terminent dans les délais impartis. | Durée (HH:MM) | > 100% de la fenêtre définie |
| Sécurité/Santé | Taux de réussite des sauvegardes | Suivre la fiabilité de la protection des données | Nombre de succès/échecs % | < 991 succès TP3T ou > 5 échecs par heure |
| Sécurité/Santé | Contrôles d'intégrité des données | Vérifiez que les données sont intègres et récupérables. | Nombre de tests réussis | < 1 restauration réussie en 24 heures |
| Sécurité/Santé | Événements liés à l'état de santé | Identifier les défaillances persistantes par rapport aux défaillances transitoires | États sains, malsains, dégradés | Tout état " malsain persistant " |
| Capacité | Utilisation du stockage | Prévenir l'épuisement des stocks | % octets utilisés / stockés | > Capacité 80–90% |
| Capacité | Consommation de stockage du coffre-fort de sauvegarde | Suivi des coûts et de l'utilisation du stockage cloud | GB ou TB | Le volume total de données dépasse le seuil budgétaire. |
| Capacité | Nombre de ressources protégées | Assurez-vous que tous les actifs critiques sont couverts | Nombre d'instances protégées | Nombre < inventaire prévu |
Ce tableau souligne l'importance d'agir rapidement dès que les seuils sont franchis. Le suivi de ces indicateurs garantit la fiabilité, la sécurité et la capacité de votre système de sauvegarde à faire face à toute situation.
Conclusion
Le suivi des indicateurs clés peut transformer vos opérations de sauvegarde multicloud, passant d'une simple réaction aux problèmes à une prévention proactive. En surveillant taux de réussite professionnelle, utilisation du stockage, et performance de récupération, Vous créez ainsi un filet de sécurité qui réduit le risque de perte de données et d'interruption de service.
Les indicateurs que nous avons abordés se concentrent sur trois domaines clés : protection des données, sécurité, et contrôle des coûts. Définir des seuils d'alerte et comparer régulièrement les temps de récupération réels à vos objectifs de temps de récupération (RTO) et de point de récupération (RPO) vous permet de repérer les problèmes potentiels avant qu'ils ne deviennent critiques. Comme le souligne judicieusement Cody Slingerland, expert certifié FinOps :
" On ne peut pas réparer ce qu'on ne mesure pas. "
Cette observation souligne l'importance d'une surveillance rigoureuse pour assurer la continuité des activités.
L'utilisation de ces indicateurs permet d'optimiser l'allocation des ressources, d'éviter les suppressions d'urgence et de garantir la réalisation des sauvegardes dans les délais. Lorsque les entreprises documentent et partagent ces indicateurs avec leur direction, elles peuvent plus facilement justifier les mises à niveau de leur infrastructure et démontrer l'intérêt de leurs systèmes de sauvegarde.
Prenez des mesures concrètes, comme configurer des alertes automatiques pour les défaillances dépassant cinq tâches par heure, tester régulièrement les restaurations pour valider vos objectifs de temps de restauration (RTO) et de point de restauration (RPO), et appliquer des filtres multidimensionnels pour identifier les plateformes ou ressources nécessitant une attention particulière. Ces actions transforment les données brutes en améliorations significatives, renforçant ainsi votre infrastructure de sauvegarde.
L'adoption de ces pratiques de surveillance vous apporte la clarté et la confiance nécessaires pour gérer efficacement vos sauvegardes multicloud. Vous réduirez ainsi les risques, maîtriserez les coûts et aurez l'assurance que vos données sont sécurisées.
FAQ
Quels sont les indicateurs clés à surveiller pour réussir les opérations de sauvegarde multicloud ?
Le suivi des indicateurs clés est essentiel pour garantir le bon fonctionnement et la fiabilité de vos opérations de sauvegarde multicloud. Portez une attention particulière aux points suivants : Objectifs de temps de récupération (RTO) et Objectifs de point de récupération (RPO) Ces indicateurs révèlent la rapidité et l'efficacité avec lesquelles vous pouvez restaurer vos données en cas de besoin. Un autre facteur essentiel est le suivi de taux de transfert de données et latence pour garantir que les sauvegardes s'effectuent à temps et sans interruption dans vos environnements cloud.
Il est également important de suivre utilisation du stockage, y compris la capacité totale et l'espace disponible, afin d'optimiser vos ressources. Surveiller taux de réussite des missions de sauvegarde et le volume total de données traitées Cela vous permet de repérer rapidement les problèmes potentiels, avant qu'ils ne s'aggravent. En surveillant régulièrement ces indicateurs, vous pouvez maintenir une stratégie de sauvegarde fiable et efficace.
Comment les entreprises peuvent-elles trouver un équilibre entre coût et protection lors de la définition des objectifs RTO et RPO ?
Pour trouver le juste équilibre entre coût et protection lors de la définition de votre Objectif de temps de récupération (RTO) et Objectif de point de récupération (RPO), La première étape consiste en une analyse d'impact approfondie sur l'activité. Cela permet d'identifier les applications absolument critiques qui nécessitent des RTO et RPO très courts, et celles qui peuvent supporter des délais de récupération plus longs et une certaine perte de données. Par exemple, les charges de travail critiques doivent faire l'objet de sauvegardes fréquentes, tandis que les données moins essentielles peuvent être stockées avec des options plus économiques et des intervalles de sauvegarde plus espacés.
En organisant vos sauvegardes par niveaux (en fonction de leur fréquence et du type de stockage), vous évitez les dépenses inutiles liées à l'utilisation d'un stockage haute performance pour toutes vos données. Des tests de restauration réguliers sont essentiels pour vérifier que vos objectifs de RTO et de RPO sont atteignables avec votre configuration actuelle. Dans le cas contraire, il peut être nécessaire d'envisager des solutions telles que les sauvegardes incrémentielles, la déduplication ou des outils cloud performants pour maîtriser les coûts sans compromettre la protection.
Serverion simplifie ce processus grâce à ses solutions de sauvegarde multicloud. Que vous ayez besoin d'un stockage SSD haute performance pour vos données critiques ou d'un stockage objet économique pour l'archivage, leurs options flexibles vous permettent d'atteindre vos objectifs de RTO et de RPO tout en respectant votre budget, sans compromettre la fiabilité et la continuité de votre activité.
Comment puis-je améliorer les vitesses de transfert de données pour les sauvegardes multicloud ?
Pour accélérer les transferts de données dans les sauvegardes multicloud, concentrez-vous sur quelques techniques clés. Commencez par tirer parti de traitement parallèle Tout en réduisant le volume de données transmises sur le réseau, la configuration de plusieurs canaux de sauvegarde et l'activation d'une compression moyenne permettent d'optimiser votre bande passante sans surcharger votre processeur. Autre astuce ? Divisez les fichiers volumineux en segments plus petits (environ 1 Go chacun) et assignez ces segments à des canaux distincts. Cela permet à plusieurs flux de données de fonctionner simultanément, améliorant considérablement le débit.
Appariement sauvegardes complètes hebdomadaires avec sauvegardes incrémentielles quotidiennes Voici une autre approche astucieuse : en ne transmettant que les blocs de données modifiés, vous économisez de la bande passante et accélérez les sauvegardes régulières. Surveillez les indicateurs de transfert et envisagez de programmer les sauvegardes en dehors des heures de pointe afin d'éviter la congestion du réseau. Vous souhaitez aller plus loin ? L'utilisation de la mise en cache en périphérie ou d'un stockage haute vitesse à proximité du point d'entrée du cloud peut réduire la latence et rendre vos transferts encore plus fluides.
La plateforme d'hébergement multicloud de Serverion prend en charge ces méthodes grâce à son infrastructure robuste et à ses centres de données répartis dans le monde entier, vous aidant ainsi à réaliser des sauvegardes plus rapides et plus efficaces.