Die wichtigsten Kennzahlen für die Überwachung von Multi-Cloud-Backups
Sie möchten zuverlässige Backups? Dann sollten Sie die richtigen Kennzahlen erfassen. Die Überwachung von Backups in mehreren Clouds vereinfacht den Datenschutz, indem alle Daten an einem zentralen Ort zusammengeführt werden. Der eigentliche entscheidende Vorteil liegt jedoch in der Fokussierung auf Schlüsselkennzahlen, die zuverlässige Backups, schnelle Wiederherstellung und Kostenkontrolle gewährleisten.
Folgendes sollten Sie überwachen:
- Ziel der Wiederherstellungszeit (RTO): Wie lange können Systeme ausfallen, bevor dies Auswirkungen auf den Geschäftsbetrieb hat?
- Wiederherstellungspunktziel (RPO): Welcher Datenverlust ist akzeptabel?
- Backup-Erfolgsrate: Werden die Backups wie geplant abgeschlossen?
- Datenübertragungsraten: Wie schnell können Daten während der Datensicherung übertragen werden?
- Speicherauslastung: Ist Ihr Speicherplatz fast voll?
- Datenintegritätsprüfungen: Sind Ihre Sicherungsdaten korrekt und unbeschädigt?
- Reaktionszeit bei einem Vorfall: Wie schnell lassen sich Störungen beheben?
- Anzahl der geschützten Ressourcen: Sind alle kritischen Systeme abgedeckt?
- Speicherverbrauch des Backup-Vaults: Verwalten Sie Ihre Lagerkosten effektiv?
- Zugriffsprotokolle und Prüfprotokolle: Wer hat wann auf Ihre Backups zugegriffen?
Die Überwachung dieser Kennzahlen hilft, Ausfallzeiten, Datenverlust und übermäßige Kosten zu vermeiden. Außerdem stellt sie sicher, dass Ihr Backup-System den Geschäftsanforderungen und Compliance-Vorgaben entspricht.
Demo-Session mit Experten: Veeam ONE Hybrid Cloud Backup Monitoring Masterclass | Webinar

1. Wiederherstellungszeitziel (RTO)
Beim Recovery Time Objective (RTO) geht es darum, festzulegen, wie lange Ihre Systeme nach einem Ausfall stillstehen dürfen, bevor dies Ihrem Unternehmen schadet. Einfach ausgedrückt: Es ist die maximale Ausfallzeit, die Sie sich leisten können, bevor alles wieder voll funktionsfähig sein muss. Kari Rivas, Senior Product Marketing Manager bei Backblaze, formuliert es so:
"Wiederherstellung bedeutet, dass die Systeme wieder betriebsbereit und voll funktionsfähig sind und von den Benutzern (Mitarbeitern, Kunden usw.) in der gleichen Weise genutzt werden können wie vor dem Datenvorfall."
Die korrekte Festlegung Ihres RTO-Plans ist von entscheidender Bedeutung, da er Ihre technischen Wiederherstellungspläne direkt mit Ihren Geschäftsprioritäten verknüpft.
Die Kosten von Ausfallzeiten bestimmen oft Ihre RTO-Ziele. Finanzhandelsunternehmen streben beispielsweise typischerweise eine RTO nahe null an, da selbst wenige Minuten Offline-Zeit Millionen kosten können. Weniger kritische Systeme hingegen, wie interne Archive, können Ausfallzeiten von mehreren Tagen ohne größere Folgen verkraften.
Verwenden Sie einen gestaffelten Ansatz für RTOs: Weisen Sie kritischen Anwendungen enge Wiederherstellungszeiten (RTOs) zu und gewähren Sie weniger wichtigen Systemen mehr Flexibilität. Diese Strategie hält die Wiederherstellungskosten überschaubar und schützt gleichzeitig Ihre wichtigsten Betriebsabläufe. Arbeiten Sie mit den Abteilungsleitern zusammen, um die finanziellen Auswirkungen von Ausfallzeiten für jedes System abzuschätzen – so wird die RTO zu einer geschäftsrelevanten Kennzahl und nicht nur zu einer technischen.
Testen Sie Ihre realistische Wiederherstellungszeit (Recovery Time Reality, RTR) regelmäßig in Übungen oder im Ernstfall. Wenn Ihre RTR-Werte regelmäßig nicht den Erwartungen entsprechen, ist dies ein Zeichen dafür, dass Ihr Backup-System verbessert werden muss. Bandbasierte Backups sind beispielsweise bekanntermaßen langsam, da sie physisch entnommen und geladen werden müssen. Cloud-Speicher hingegen bieten sofortigen Zugriff, was die Wiederherstellungszeiten erheblich verkürzen kann. Notfallübungen und Planspiele sind hervorragende Instrumente, um sicherzustellen, dass Ihre RTO-Ziele realistisch und erreichbar sind.
2. Recovery Point Objective (RPO)
Während sich RTO auf akzeptable Ausfallzeiten konzentriert, legt RPO den Fokus darauf, wie viel Datenverlust toleriert werden kann. Im Wesentlichen misst RPO das Alter der Daten, die Sie aus Ihrem letzten Backup wiederherstellen können. Beträgt Ihr RPO beispielsweise eine Stunde, akzeptieren Sie, dass im Falle eines Vorfalls bis zu 60 Minuten an Daten verloren gehen können. Diese Kennzahl ist in Multi-Cloud-Umgebungen von entscheidender Bedeutung, da eine präzise Nachverfolgung unerlässlich ist, um die Wiederherstellungsmaßnahmen an den Geschäftsprioritäten auszurichten.
Der RPO (Recovery Point Objective) beeinflusst direkt, wie häufig Backups durchgeführt werden müssen. Ein RPO von einer Stunde bedeutet, dass Backups mindestens stündlich ausgeführt werden müssen. Für kritische Systeme – wie Zahlungsportale oder Patientendaten – sollte der RPO möglichst nahe bei null liegen. Weniger wichtige Daten hingegen, wie Marketinganalysen oder archivierte Bestellungen, können RPOs von 13 bis 24 Stunden verkraften, ohne größere Störungen zu verursachen.
Eine bemerkenswerte Statistik: Über 721.030 Unternehmen erreichen ihre Wiederherstellungsziele nicht[1]. Häufig liegt dies daran, dass RPO-Entscheidungen als rein technische und nicht als strategische Geschäftsentscheidungen betrachtet werden. Kari Rivas, Senior Product Marketing Manager bei Backblaze, hebt dies hervor:
"Die Entscheidung, welcher Standard erfüllt werden soll, ist eine gemeinsame Verantwortung. Und diese Standards… sind die Ziele, die die Teams der IT- und Infrastrukturanbieter erreichen müssen."
Die Ermittlung der Kosten einer Ausfallminute für Ihr Unternehmen kann Klarheit bei der Festlegung realistischer RPO-Ziele schaffen.
In Multi-Cloud-Umgebungen, in denen die Leistung je nach Anbieter und Region variieren kann, ist es wichtig, Ihre Leistung im Auge zu behalten. Tatsächlicher Wiederherstellungspunkt (RPA) Der tatsächliche Datenverlust während Vorfällen ist entscheidend. Wenn Ihre RPA-Lösung regelmäßig nicht die gewünschten Ergebnisse liefert, sollten Sie entweder die Backup-Frequenz erhöhen oder in eine bessere Infrastruktur investieren. Automatisierte, hochfrequente Backups sind oft die einzige Möglichkeit, strenge RPOs einzuhalten, da manuelle Methoden nicht mithalten können.
Um ein ausgewogenes Verhältnis zwischen Kosten und Schutz zu erzielen, sollten Sie kritischen Systemen wie der Kundenauthentifizierung strengere RPO-Werte zuweisen und weniger kritischen Daten wie dem internen Inventar weniger strenge. Dieser gestaffelte Ansatz stellt sicher, dass Sie die wichtigsten Daten schützen, ohne unnötige Ressourcen auszugeben.
3. Backup-Erfolgsrate
Die Backup-Erfolgsrate gibt den Prozentsatz abgeschlossener Backup-Aufträge im Vergleich zu fehlgeschlagenen oder übersprungenen an. Sie dient als Leistungsbericht für Ihr Backup-System. Eine hohe Erfolgsrate signalisiert, dass Ihr Datensicherungsplan auf Kurs ist, während ein Rückgang dieser Kennzahl den Geschäftsbetrieb, insbesondere in kritischen Momenten, beeinträchtigen kann.
Eine hohe Backup-Erfolgsrate ist entscheidend – schließlich lassen sich Daten, die nie gesichert wurden, nicht wiederherstellen. In Multi-Cloud-Umgebungen kann die Überwachung dieser Kennzahl aufgrund der notwendigen Datenkonsolidierung verschiedener Anbieter schwierig sein. Beispielsweise aktualisiert AWS Backup CloudWatch alle 5 Minuten mit der Anzahl der Backup-Aufträge, während Google Cloud seine Backup-Kennzahlen stündlich aktualisiert. Die Kombination dieser Aktualisierungen ermöglicht einen besseren Überblick über die Gesamtleistung der Backups.
Mehrere Faktoren können zu Backup-Fehlern führen. Dazu gehören Terminkonflikte mit Wartungsfenstern (wie beispielsweise für Amazon FSx oder Datenbankdienste), Speicherplatzmangel oder Netzwerkprobleme, die zu abgebrochenen Datenübertragungen führen. Cloud-Anbieter. Um diesen Problemen vorzubeugen, sollten Sie automatische Benachrichtigungen einrichten, die ausgelöst werden, sobald innerhalb einer Stunde mehr als fünf Aufträge fehlschlagen. Trendberichte über einen Zeitraum von 30 Tagen oder länger können helfen, wiederkehrende Probleme anstelle von einmaligen Ausfällen aufzudecken.
Wenn weiterhin Fehler auftreten, sollten Sie Ihre Vorgehensweise anpassen. Die Umstellung auf inkrementelle Backups oder Continuous Data Protection (CDP) kann das zu übertragende Datenvolumen reduzieren und so Ihr System entlasten. Beachten Sie, dass AWS Aufträge als "ABGELAUFEN" markiert, wenn sie nicht innerhalb des geplanten Zeitraums starten. Dies beeinträchtigt Ihre Erfolgsquote, selbst wenn kein technischer Fehler vorliegt. Durch die regelmäßige Überprüfung und Anpassung der Backup-Zeitpläne lassen sich Ressourcenkonflikte zu Spitzenzeiten vermeiden. Die Feinabstimmung dieser Prozesse gewährleistet die Zuverlässigkeit Ihrer Backups, während Sie gleichzeitig andere wichtige Kennzahlen im Blick behalten.
4. Datenübertragungsraten
Die Datenübertragungsrate bestimmt, wie schnell Sicherungsdaten von einem Punkt zum anderen übertragen werden und beeinflusst somit direkt die Dauer der Datensicherung. Bandbreite bezieht sich auf die Gesamtkapazität Ihrer Netzwerkverbindung., Durchsatz Es misst die tatsächliche Geschwindigkeit, mit der Daten hoch- oder heruntergeladen werden. Kari Rivas, Senior Product Marketing Manager bei Backblaze, formuliert es so:
"Für Kunden, die Backup- und Archivierungsdienste nutzen, ist der Durchsatz oft die wichtigere Messgröße, da er einen Hinweis auf die Upload- und Download-Geschwindigkeiten gibt, die ein Endbenutzer erleben wird."
Wenn der Datendurchsatz nicht ausreicht, kann dies zu Störungen im Backup-Plan und einer Beeinträchtigung der Systemleistung führen. Langsame Übertragungsraten bedeuten längere Backup-Zeiten, die sich unter Umständen bis in die Produktionszeiten erstrecken. Genau hier setzt das Konzept des … an. Sicherungsfenster Entscheidend wird ein bestimmter Zeitraum, der für die Durchführung von Backups reserviert ist, ohne den laufenden Betrieb zu beeinträchtigen. Reicht Ihr Durchsatz nicht aus, um die Datenlast innerhalb dieses Zeitfensters zu bewältigen, droht ein Problem. W. Curtis Preston, Autor bei Network World, hebt die Risiken hervor:
"Jedes Speichersystem hat die Fähigkeit, ein bestimmtes Backup-Volumen pro Tag aufzunehmen… Wird dies nicht überwacht, kann es dazu führen, dass die Backups immer länger dauern und sich bis in den Arbeitstag hineinziehen."
Die Überwachung der Überweisungsraten ist für die Identifizierung unerlässlich. Netzwerkengpässe Bevor es zu größeren Problemen kommt. Anhaltend niedrige Geschwindigkeiten können auf Netzwerküberlastung, Hardwarebeschränkungen oder sogar Drosselung durch Ihren Anbieter hindeuten. Achten Sie auf wachsende Warteschlangen – dies sind Anzeichen dafür, dass Ihr System Schwierigkeiten hat, mit dem Datenfluss Schritt zu halten.
Die Verbesserung der Übertragungsraten erfordert oft eine Feinabstimmung Ihrer Konfiguration. Multithreading ist eine Möglichkeit, die Leistung zu steigern, indem mehrere Datenströme gleichzeitig übertragen und die verfügbare Bandbreite besser genutzt wird. Auch die Anpassung der Block- oder Teilgrößen kann hilfreich sein; größere Teile reduzieren den Overhead durch häufige API-Aufrufe, benötigen aber mehr Speicher. Für Unternehmen mit engen Backup-Fenstern kann der Wechsel zu inkrementellen Backups oder Continuous Data Protection (CDP) einen entscheidenden Vorteil bringen. Diese Methoden minimieren die übertragene Datenmenge und reduzieren so die Netzwerklast.
5. Speicherauslastung
Die Speicherauslastung spielt neben den Übertragungsraten eine entscheidende Rolle für die Effizienz von Datensicherungen. Indem Sie Ihren Speicherverbrauch bei verschiedenen Cloud-Anbietern im Blick behalten, können Sie Kosten kontrollieren und Überdimensionierung vermeiden. Die regelmäßige Überwachung des Backup-Speichers ermöglicht es Ihnen, Trends zu erkennen und die Kapazität anzupassen, bevor Sie an Grenzen stoßen. Beispielsweise verwenden die Backup-Nutzungsberichte von Google Cloud eine lineare Regression auf Basis historischer Daten, um den zukünftigen Speicherbedarf vorherzusagen und Administratoren so frühzeitig über den optimalen Zeitpunkt für eine Skalierung zu informieren. Darüber hinaus kann die Bewertung, wie sich Deduplizierung und zeitnahes Löschen auf die Speichereffizienz auswirken, sowohl die Leistung als auch die Kosten erheblich beeinflussen.
Eine gute Methode zur Bewertung der Effizienz von Deduplizierung und Komprimierung ist der Vergleich der Virtuelle Größe zu Gespeicherte Bytes. Sind diese Zahlen nahezu identisch, deutet dies möglicherweise darauf hin, dass die Deduplizierung nicht optimal funktioniert. Tools wie AWS Backup aktualisieren die Speichermetriken in CloudWatch alle fünf Minuten, während Google Cloud die Daten des Backup-Tresors stündlich aktualisiert. So erhalten Sie regelmäßig Informationen zum Zustand Ihres Speichers.
Werden abgelaufene Wiederherstellungspunkte nicht entfernt, kann dies zu unnötigen Kosten führen. Wie W. Curtis Preston, ein bekannter Spezialist für Datensicherung und -wiederherstellung, erklärt:
"Die einzige Möglichkeit, zusätzliche Kapazität zu schaffen, ohne weitere Speichermedien zu kaufen, besteht darin, ältere Backups zu löschen. Es wäre bedauerlich, wenn die mangelnde Überwachung der Speicherkapazität Ihres Speichersystems dazu führen würde, dass Sie die von Ihrem Unternehmen festgelegten Aufbewahrungsfristen nicht einhalten können."
Die Überwachung des Speicherwachstums auf Anwendungs- und Hostebene zeigt auf, welche Ressourcen die Kosten verursachen. Beispielsweise stellt sich heraus, dass eine einzelne Datenbank den Backup-Speicherplatz monopolisiert, während andere Anwendungen kaum Speicherplatz beanspruchen. Diese detaillierten Erkenntnisse helfen Ihnen, Optimierungsmaßnahmen auf die wichtigsten Bereiche zu konzentrieren. Durch das Festlegen von Schwellenwertwarnungen – typischerweise bei einer Kapazität von etwa 801.300 TB – erhalten Sie zudem genügend Zeit, um vor Erreichen kritischer Grenzwerte zu reagieren.
Schließlich ist es entscheidend, die anbieterspezifischen Abrechnungsmetriken zu verstehen, um Überraschungen zu vermeiden. Beispielsweise bei AWS Neptune. Gesamtbetrag des abgerechneten Backup-Speichers Die Metrik umfasst sowohl kontinuierlichen als auch Snapshot-Speicher mit einem täglichen kostenlosen Kontingent. Google Cloud ermöglicht es Ihnen außerdem, Metriken nach Ressourcentyp zu filtern. Wenn Sie diese Details kennen, stellen Sie sicher, dass Sie die richtigen Speicherebenen nutzen und Ihre Kosten im Griff behalten.
6. Datenintegritätsprüfungen
Datenintegritätsprüfungen sind unerlässlich, um sicherzustellen, dass gesicherte Daten während ihres gesamten Lebenszyklus korrekt und unbeschädigt bleiben. Diese Prüfungen basieren auf Techniken wie beispielsweise Prüfsummen und Hash-Validierung um sicherzustellen, dass Dateien während der Übertragung, Speicherung und des Abrufs intakt bleiben, auch bei der Arbeit mit mehreren Cloud-Anbietern.
Durch die Integration grundlegender Backup-Metriken tragen Integritätsprüfungen dazu bei, die Sicherheit Ihrer Daten auch beim Wechsel zwischen verschiedenen Cloud-Umgebungen zu gewährleisten. Beispielsweise kann es bei der Übertragung von Daten zwischen Anbietern oder beim Wechsel von Warm- zu Cold-Storage zu Datenbeschädigungen kommen, die von Standard-Backup-Protokollen möglicherweise nicht erfasst werden. Unvollständige Wiederherstellungspunkte – also Backups, die zwar begonnen, aber nie vollständig abgeschlossen wurden – stellen ein weiteres Risiko dar, da sie bei der Wiederherstellung zu unvollständigen oder beschädigten Dateien führen können.
Moderne Cloud-Plattformen bieten Tools, mit denen die Datenintegrität nahezu in Echtzeit überwacht werden kann. Zum Beispiel:, AWS-Sicherung Die Metriken in CloudWatch werden alle fünf Minuten aktualisiert, sodass Sie potenzielle Probleme schnell erkennen und beheben können. Einige Plattformen unterscheiden sogar zwischen Status wie "Abgeschlossen" und "Abgeschlossen mit Problemen", um anzuzeigen, wann eine genauere Überprüfung erforderlich ist. Andererseits, Oracle Cloud Infrastructure Object Storage Das System verfolgt einen proaktiven Ansatz, indem es beschädigte Daten mithilfe von Redundanz automatisch repariert. Um die Integritätsüberwachung wirklich zu validieren, ist es jedoch unerlässlich, tatsächliche Wiederherstellungstests durchzuführen.
Geplante Wiederherstellungstests helfen ebenfalls bei der Messung Recovery Time Reality (RTR) und Recovery Point Reality (RPR) – Wichtige Indikatoren für die Leistungsfähigkeit Ihres Backup-Systems im Vergleich zu Ihren Wiederherstellungszielen. Diese Tests liefern Erkenntnisse über die praktische Effektivität Ihrer Backup-Strategie.
Für zusätzlichen Schutz wird Folgendes implementiert: unveränderlicher Speicher unter Verwendung von Write-Once-Read-Many (WORM)-Technologien, wie z. B. Amazon S3 Objektsperre, kann verhindern, dass Daten nach dem Schreiben verändert werden. Dies ist besonders wertvoll zum Schutz vor Ransomware-Angriffen. Es ist jedoch wichtig, die Daten vor dem Sperren auf Schadsoftware oder Beschädigungen zu überprüfen, um zu vermeiden, dass Fehler dauerhaft gespeichert werden. Die Verfolgung eines Datenqualitätsbewertung, das Kennzahlen wie Konsistenz, Vollständigkeit und Genauigkeit zusammenfasst, kann auch eine klare Momentaufnahme des allgemeinen Zustands Ihrer Sicherungsdaten über alle Cloud-Umgebungen hinweg bieten.
sbb-itb-59e1987
7. Reaktionszeit bei Vorfällen
Die Reaktionszeit bei Störungen erfasst die Zeitspanne zwischen dem Erkennen eines Fehlers und dessen Behebung. Sie wird in zwei wichtige Teilkennzahlen unterteilt: Mittlere Zeit bis zur Bestätigung (MTTA), das misst, wie schnell Ihr Team auf Warnmeldungen reagiert, und Mittlere Erholungszeit (MTTR), Diese Kennzahl misst, wie lange es dauert, den Normalbetrieb wiederherzustellen. Sie ergänzt die bereits erwähnten Leistungsindikatoren.
"Wenn der erste Backup-Job fehlschlägt, ist die Wahrscheinlichkeit hoch, dass auch nachfolgende Aufgaben fehlschlagen. In einem solchen Fall lässt sich der Ablauf am besten durch Überwachung und Benachrichtigung nachvollziehen." – AWS-Leitfaden
Die Definition klarer Reaktionskriterien basierend auf der Schwere des Vorfalls ist unerlässlich. Organisationen gleichen ihre Service Level Objectives (SLOs) häufig mit Prioritätsstufen ab, um eine effiziente Bearbeitung von Vorfällen zu gewährleisten:
- P1 (Kritisch): Innerhalb von 5 Minuten bestätigen, innerhalb von 4 Stunden wiederherstellen
- P2 (Hoch): Innerhalb von 15 Minuten bestätigen, innerhalb von 12 Stunden wiederherstellen
- P3 (Mittel): Innerhalb einer Stunde bestätigen, innerhalb von 24 Stunden wiederherstellen
Leistungsfähige Alarmsysteme sind die Grundlage für eine effektive Reaktion auf Sicherheitsvorfälle. Durch die Integration der Backup-Überwachung mit Tools wie Amazon CloudWatch oder Google Cloud Monitoring können Sie Echtzeitbenachrichtigungen über Dienste wie Amazon SNS einrichten. Konfigurieren Sie beispielsweise Alarme, die ein Ticket mit hoher Priorität auslösen, wenn mehr als fünf Backup-Aufträge innerhalb einer Stunde fehlschlagen.
"Ein niedriger MTTA-Wert bedeutet, dass Ihre Benachrichtigungen schnell die richtigen Personen erreichen. Ein hoher Wert deutet hingegen häufig auf Benachrichtigungsmüdigkeit, eine Überlastung durch zu viele Benachrichtigungen oder unklare Zuständigkeiten hin." – Wiz
Automatisierung spielt eine entscheidende Rolle bei der Erreichung dieser Ziele. Tools wie Amazon EventBridge können Eskalationsprozesse automatisieren und so eine schnelle Ticket-Erstellung und ein konsistentes MTTA-Tracking gewährleisten. Um die Genauigkeit zu wahren, ist es unerlässlich, die Bedeutung von "bestätigt" in Ihrer Multi-Cloud-Umgebung klar zu definieren und sicherzustellen, dass alle Beteiligten die gleichen, handlungsrelevanten Kennzahlen verwenden.
8. Anzahl der geschützten Ressourcen
Die Anzahl geschützter Ressourcen misst die Anzahl virtueller Maschinen, Datenbanken, Dateisysteme und anderer Infrastrukturkomponenten, die durch Ihren Backup-Service geschützt werden. Sie ist eine wichtige Kennzahl, um zu beurteilen, wie gut Ihr Backup-System Ihre Multi-Cloud-Umgebung abdeckt. Genaue Zählungen sind entscheidend für eine ordnungsgemäße Daten-Governance, insbesondere da die Nutzung von Multi-Cloud-Lösungen die Anforderungen von ISO 90% im privaten und öffentlichen Sektor übertroffen hat. Die Nachverfolgung dieser geschützten Ressourcen ist heute ein Eckpfeiler von Compliance und Governance in Cloud-Umgebungen.
Der wahre Wert dieser Kennzahl wird erst deutlich, wenn man sie mit dem gesamten Infrastrukturbestand vergleicht. Viele Cloud-Plattformen bieten Tools zur Zählung geschützter Assets, mit denen sich etwaige Schutzlücken identifizieren lassen. Durch den Abgleich dieser Zählung mit Ihrem gesamten Bestand können Sie schnell Ressourcen ermitteln, die möglicherweise ungeschützt sind.
Um stets einen Schritt voraus zu sein, sind automatisierte Erkennungstools unerlässlich. In dynamischen Cloud-Umgebungen werden ständig neue Ressourcen hinzugefügt, und ohne automatisierte Scans können einige Ressourcen – oft als "Schattenressourcen" bezeichnet – die Sicherungsrichtlinien umgehen. Beispielsweise hebt die Azure-Übersicht "Schutzfähige Ressourcen" Assets hervor, die noch nicht gesichert wurden, sodass diese Lücken sofort geschlossen werden können.
Durch das Einrichten von Warnmeldungen lässt sich die Übersichtlichkeit weiter verbessern. Beispielsweise können Sie CloudWatch oder Google Cloud Monitoring so konfigurieren, dass Benachrichtigungen versendet werden, wenn der Anteil geschützter Assets unter einen Schwellenwert fällt, etwa 951 TP3T Ihres Gesamtbestands. Dieser proaktive Ansatz hilft Ihnen, potenzielle Schwachstellen zu erkennen, bevor es zu Datenverlusten kommt. Darüber hinaus kann die Kennzeichnung von Ressourcen mit Labels wie "BackupTier: Gold" oder "BackupTier: Silber" die Durchsetzung von Richtlinien optimieren und die Nachverfolgung über verschiedene Teams oder Abteilungen hinweg vereinfachen.
Zentrale Dashboards sind ein weiteres wichtiges Werkzeug, um die Transparenz in Multi-Cloud-Umgebungen zu gewährleisten. AWS Backup aktualisiert beispielsweise alle fünf Minuten die Metriken in CloudWatch, während Google Cloud stündliche Updates zur Speichernutzung bereitstellt. Durch die Verwendung von Plattformen, die Datenformate normalisieren – wie etwa solche, die JSON oder Syslog verarbeiten –, können Sie eine konsistente Berichterstattung über verschiedene Cloud-Anbieter hinweg sicherstellen. Regelmäßige Audits der Infrastruktur-APIs bestätigen zudem, dass alle Ressourcen abgedeckt sind, und helfen Ihnen so, Compliance-Anforderungen zu erfüllen und Sicherheitslücken zu vermeiden.
9. Speicherverbrauch im Backup-Vault
Die Überwachung der Nutzung des Backup-Speichers ist entscheidend für die Kostenkontrolle und eine effektive Kapazitätsplanung. Eine der wichtigsten Kennzahlen, die es zu verfolgen gilt, ist die gespeichertes Datenvolumen (gemessen in GiB oder TB). Diese Kennzahl zeigt den belegten Speicherplatz an und hilft Ihnen, Kapazitätsgrenzen zu vermeiden oder unerwartete Abrechnungsprobleme zu verhindern.
Eine weitere wichtige Kennzahl ist Nutzung des Speicherpools, Diese Kennzahl zeigt den prozentualen Anteil des belegten Speicherplatzes im Vergleich zum verfügbaren Speicherplatz Ihres Backup-Systems an. Nähert sich die Nutzung vordefinierten Schwellenwerten, sollten Sie entweder die Kapazität erweitern oder veraltete Backups entfernen. AWS Backup aktualisiert diese Metriken beispielsweise alle 5 Minuten mithilfe von CloudWatch, während Google Cloud die Werte stündlich aktualisiert und die neuesten Daten alle 5 Minuten wiederholt.
Es ist außerdem unerlässlich, die Überwachung durchzuführen. Mindestaufbewahrungsdauer Um sicherzustellen, dass die Daten für den erforderlichen Zeitraum aufbewahrt werden, kann die Nachverfolgung der Zeitstempel der ersten und letzten Wiederherstellung außerdem dazu beitragen, den Lebenszyklus Ihrer Datensicherung zu validieren und die Einhaltung der Vorschriften zu bestätigen.
Ein potenzieller Kostentreiber ist Abgelaufene Wiederherstellungspunkte, die nicht gelöscht werden konnten. AWS Backup liefert die Metrik Anzahl der abgelaufenen Wiederherstellungspunkte, Dadurch werden Backups identifiziert, die eigentlich gelöscht werden sollten, aber immer noch Speicherplatz belegen. Dies kann zu höheren Speicherkosten führen. Ebenso verhält es sich mit dem Anzahl der Erholungspunkte (Kälte) Diese Kennzahl bestätigt, dass ältere Daten wie vorgesehen in kostengünstigere Archivierungsebenen verschoben werden. Obwohl die Archivierung günstiger ist, ist zu beachten, dass die Kosten für den Datenabruf höher sein können.
Um die Nase vorn zu behalten, richten Sie Folgendes ein: Schwellenwertwarnungen Für ein proaktives Management sollte Ihr Überwachungssystem Sie benachrichtigen, sobald die Speicherauslastung festgelegte Grenzwerte überschreitet oder die Anzahl abgelaufener Wiederherstellungspunkte ansteigt. Es ist außerdem hilfreich, die Verbrauchsmetriken nach Ressourcentyp zu segmentieren – beispielsweise Compute Engine-Instanzen, SQL-Datenbanken oder Oracle-Systeme. So können Sie genau feststellen, welche Workloads das Speicherwachstum verursachen, und die Aufbewahrungsrichtlinien entsprechend anpassen.
Für diejenigen, die verwenden Serverion‘Die Multi-Cloud-Backup-Lösungen vonServerionDie Integration dieser Überwachungsstrategien kann sowohl die Leistung als auch die Kosteneffizienz verbessern. Diese Vorgehensweisen bilden die Grundlage für die detaillierte Betrachtung operativer Kennzahlen in den folgenden Abschnitten.
10. Zugriffsprotokolle und Prüfprotokolle
Jede Aktion im Zusammenhang mit Ihrer Backup-Infrastruktur – sei es die Wiederherstellung von Daten, die Änderung einer Richtlinie oder auch nur das Auslesen von Informationen – muss sorgfältig protokolliert werden. Zugriffsprotokolle und Audit-Trails liefern detaillierte Aufzeichnungen darüber, wer wann und von wo auf welche Daten zugegriffen hat. Diese Transparenz ist sowohl für Sicherheitsuntersuchungen als auch für die Einhaltung gesetzlicher Bestimmungen unerlässlich.
Audit-Logs sollten alle wichtigen Details zu jedem Ereignis erfassen. Dazu gehören der beteiligte Benutzer oder die IAM-Rolle, die Art der durchgeführten Aktion (z. B. Wiederherstellung des Backups, Löschung des Backups, Erstellung eines Backup-Plans), die Quell-IP-Adresse, die betroffene Ressource, der Zeitstempel und das Ergebnis der Aktion. Bei langlaufenden Prozessen generiert Google Cloud Backup & DR zwei separate Logeinträge: einen beim Start und einen beim Abschluss des Vorgangs.
Cloud-Plattformen unterteilen Protokolle typischerweise in zwei Kategorien: Administrator-Aktivitätsprotokolle für Konfigurationsänderungen und Datenzugriffsprotokolle Bei Vorgängen mit sensiblen Daten sind Administratoraktivitätsprotokolle in der Regel standardmäßig aktiviert, Datenzugriffsprotokolle hingegen müssen oft manuell aktiviert werden. Auf Google Cloud sind Datenzugriffsprotokolle beispielsweise aufgrund ihres Umfangs standardmäßig deaktiviert (mit Ausnahme von BigQuery). Die Aktivierung dieser Protokolle ist jedoch unerlässlich, um nachzuverfolgen, wer sensible Daten einsieht oder wiederherstellt, und somit die Einhaltung der Datenschutzbestimmungen zu gewährleisten.
Um Ihre Überwachung zu optimieren, richten Sie Echtzeitwarnungen für kritische Aktionen wie „Backup löschen“ ein. Leiten Sie außerdem Protokolle an zentrale Speicherlösungen weiter, um die Aufbewahrungsfristen einzuhalten, die je nach Compliance-Standards zwischen 30 Tagen und bis zu 10 Jahren variieren können. Zu den zentralen Speicheroptionen gehören Plattformen wie Azure Log Analytics oder Cloud Storage.
Für Multi-Cloud-Umgebungen eignen sich Tools wie Serverion Die Protokollverwaltung wird dadurch vereinfacht. Durch die Zusammenführung von Protokollen aus AWS CloudTrail, Azure Activity Logs und Google Cloud Audit Logs in einem einzigen SIEM-System erhalten Sie einen umfassenden Überblick über Ihre gesamte Backup-Infrastruktur. Dieser Ansatz optimiert nicht nur die Überwachung, sondern verbessert auch die Einhaltung von Compliance-Vorgaben über verschiedene Plattformen hinweg.
Vergleichstabelle
Die 10 wichtigsten Kennzahlen für Multi-Cloud-Backups: Kategorien, Messmethoden und Alarmschwellenwerte
Um die Übersicht zu erleichtern, sind die wichtigsten Backup-Kennzahlen in drei Kategorien unterteilt: Leistung, Sicherheit/Zustand und Kapazität. Diese Gruppierung hilft, potenzielle Probleme zu erkennen und einen klaren Fahrplan für deren Behebung zu erstellen. Im Folgenden finden Sie neun wichtige Kennzahlen mit Angabe ihres Zwecks, ihrer Messmethode und des Schwellenwerts, der Handlungsbedarf signalisiert.
Leistungsmetriken Konzentrieren Sie sich darauf, wie schnell Backups und Wiederherstellungen erfolgen. Sie beantworten Fragen wie: Werden Backups rechtzeitig abgeschlossen? Können Daten im Krisenfall schnell genug wiederhergestellt werden? Wenn beispielsweise Ihr Recovery Time Objective (RTO) auf 4 Stunden festgelegt ist, Ihre tatsächliche Wiederherstellungszeit (RTR) aber regelmäßig 6 Stunden beträgt, ist dies ein deutliches Zeichen dafür, dass Ihr System möglicherweise überarbeitet werden muss.
Sicherheits- und Gesundheitskennzahlen Überprüfen Sie regelmäßig, ob Ihre Backups ordnungsgemäß funktionieren und stellen Sie sicher, dass Ihre Daten erhalten bleiben. Wenn beispielsweise Ihre Backup-Erfolgsrate unter 99% sinkt oder mehr als fünf Backups pro Stunde fehlschlagen, sollten Sie der Sache nachgehen.
Kapazitätskennzahlen Durch die Überwachung der Speichernutzung lassen sich speicherbedingte Ausfälle vermeiden. Beispielsweise können Warnmeldungen eingerichtet werden, sobald die Speicherauslastung 80–90% erreicht, um Unterbrechungen aufgrund von Speicherplatzmangel zu verhindern.
| Kategorie | Metrisch | Zweck | Beispielmessung | Empfohlener Alarmschwellenwert |
|---|---|---|---|---|
| Performance | Ziel der Wiederherstellungszeit (RTO) | Sicherstellen, dass die Wiederherstellungsgeschwindigkeit den Geschäftsanforderungen entspricht | Minuten oder Stunden zur Wiederherstellung | RTR übertrifft das vom Unternehmen definierte RTO |
| Performance | Datenübertragungsraten (Durchsatz) | Backup- und Wiederherstellungsgeschwindigkeiten messen | MB/s oder TB/Stunde | Unterhalb der minimalen Hardwaregeschwindigkeit |
| Performance | Nutzung des Sicherungsfensters | Stellen Sie sicher, dass die Datensicherungen innerhalb der vorgegebenen Zeit abgeschlossen werden. | Zeitdauer (HH:MM) | > 100% des definierten Fensters |
| Sicherheit/Gesundheit | Erfolgsrate der Sicherung | Überprüfen Sie die Zuverlässigkeit des Datenschutzes | % Erfolgs-/Fehleranzahl | < 99%-Erfolge oder > 5 Fehlschläge pro Stunde |
| Sicherheit/Gesundheit | Datenintegritätsprüfungen | Überprüfen Sie, ob die Daten unbeschädigt und wiederherstellbar sind. | Anzahl erfolgreicher Tests | < 1 erfolgreiche Wiederherstellung in 24 Stunden |
| Sicherheit/Gesundheit | Gesundheitsstatusereignisse | Unterscheidung zwischen dauerhaften und vorübergehenden Ausfällen | Gesunde, ungesunde, degenerierte Zustände | Jeder "anhaltend ungesunde" Status |
| Kapazität | Speicherauslastung | Lagererschöpfung verhindern | % verwendete / gespeicherte Bytes | > 80–90% Kapazität |
| Kapazität | Speicherverbrauch des Backup-Tresors | Verfolgen Sie die Kosten und die Nutzung des Cloud-Speichers. | GB oder TB | Die Gesamtdatenmenge überschreitet den Budgetrahmen |
| Kapazität | Anzahl der geschützten Ressourcen | Stellen Sie sicher, dass alle kritischen Anlagen abgedeckt sind. | Anzahl der geschützten Instanzen | Anzahl < erwarteter Lagerbestand |
Diese Tabelle unterstreicht, wie wichtig schnelles Handeln bei Überschreitung von Schwellenwerten ist. Die Überwachung dieser Kennzahlen gewährleistet, dass Ihr Backup-System zuverlässig, sicher und für alle Eventualitäten gerüstet bleibt.
Abschluss
Die Überwachung der richtigen Kennzahlen kann Ihre Multi-Cloud-Backup-Prozesse von der reinen Problemreaktion hin zur proaktiven Problemvermeidung verändern. Durch die Überwachung Erfolgsquoten bei der Jobsuche, Speicherauslastung, Und Erholungsleistung, Sie schaffen ein Sicherheitsnetz, das das Risiko von Datenverlust und Ausfallzeiten verringert.
Die von uns behandelten Kennzahlen konzentrieren sich auf drei Schlüsselbereiche: Datenschutz, Sicherheit, Und Kostenkontrolle. Durch das Festlegen von Schwellenwertwarnungen und den regelmäßigen Vergleich der tatsächlichen Wiederherstellungszeiten mit Ihren RTO- (Recovery Time Objective) und RPO-Zielen (Recovery Point Objective) können Sie potenzielle Probleme erkennen, bevor sie kritisch werden. Wie Cody Slingerland, FinOps Certified Practitioner, treffend formuliert:
"Was man nicht misst, kann man nicht reparieren."
Diese Erkenntnis unterstreicht die Wichtigkeit einer gründlichen Überwachung zur Sicherstellung der Geschäftskontinuität.
Mithilfe dieser Kennzahlen können Sie fundiertere Entscheidungen zur Ressourcenzuweisung treffen, Notfalllöschungen vermeiden und die rechtzeitige Durchführung von Backups sicherstellen. Wenn Unternehmen diese Kennzahlen dokumentieren und mit dem Management teilen, fällt es ihnen oft leichter, Infrastruktur-Upgrades zu begründen und den Wert ihrer Backup-Systeme nachzuweisen.
Ergreifen Sie praktische Maßnahmen wie die Einrichtung automatisierter Warnmeldungen bei mehr als fünf Fehlern pro Stunde, regelmäßige Wiederherstellungstests zur Überprüfung von RTO und RPO sowie die Anwendung mehrdimensionaler Filter zur Identifizierung verbesserungsbedürftiger Plattformen oder Ressourcen. Diese Maßnahmen wandeln Rohdaten in sinnvolle Verbesserungen um und stärken Ihre Backup-Infrastruktur.
Die Anwendung dieser Überwachungsmethoden verschafft Ihnen die nötige Klarheit und Sicherheit für ein effektives Management von Multi-Cloud-Backups. Dadurch reduzieren Sie Risiken, kontrollieren Kosten und erhalten die Gewissheit, dass Ihre Daten sicher sind.
FAQs
Welche Kennzahlen müssen für erfolgreiche Multi-Cloud-Backup-Operationen überwacht werden?
Die Überwachung der richtigen Kennzahlen ist entscheidend für einen reibungslosen und zuverlässigen Betrieb Ihrer Multi-Cloud-Backup-Prozesse. Achten Sie besonders auf Folgendes: Wiederherstellungszeitziele (RTO) und Wiederherstellungspunktziele (RPO) Diese Kennzahlen zeigen, wie schnell und effektiv Sie Ihre Daten bei Bedarf wiederherstellen können. Ein weiterer entscheidender Faktor ist die regelmäßige Überwachung. Datenübertragungsraten und Latenz um sicherzustellen, dass Backups in Ihren Cloud-Umgebungen pünktlich und ohne Unterbrechungen erfolgen.
Es ist außerdem wichtig, dies zu verfolgen. Speicherauslastung, einschließlich Gesamtkapazität und verfügbarem Platz, um Ihre Ressourcen optimal zu nutzen. Behalten Sie im Auge Erfolgsraten von Backup-Jobs und die Gesamtvolumen der verarbeiteten Daten Sie können so potenzielle Probleme frühzeitig erkennen, bevor sie sich verschlimmern. Durch die kontinuierliche Überwachung dieser Kennzahlen können Sie eine zuverlässige und effiziente Backup-Strategie aufrechterhalten.
Wie können Unternehmen Kosten und Schutz in Einklang bringen, wenn sie RTO- und RPO-Ziele festlegen?
Um beim Festlegen Ihres Versicherungsschutzes das richtige Gleichgewicht zwischen Kosten und Schutz zu finden Ziel der Wiederherstellungszeit (RTO) und Wiederherstellungspunktziel (RPO), Der erste Schritt ist eine gründliche Geschäftsauswirkungsanalyse. Diese hilft Ihnen, die absolut kritischen Anwendungen zu identifizieren, die kürzeste Wiederherstellungszeiten (RTO) und Wiederherstellungsziele (RPO) erfordern, und diejenigen, die längere Wiederherstellungszeiten und einen gewissen Datenverlust verkraften können. Kritische Workloads sollten beispielsweise häufig gesichert werden, während weniger wichtige Daten mit kostengünstigeren Optionen und längeren Sicherungsintervallen gespeichert werden können.
Durch die gestaffelte Organisation von Backups – basierend auf Häufigkeit und Speichertyp – vermeiden Sie unnötige Kosten für Hochleistungsspeicher für all Ihre Daten. Regelmäßige Wiederherstellungstests sind unerlässlich, um zu bestätigen, dass Ihre RTO- und RPO-Ziele mit Ihrer aktuellen Konfiguration erreichbar sind. Falls nicht, sollten Sie Optionen wie inkrementelle Backups, Deduplizierung oder effiziente Cloud-native Tools in Betracht ziehen, um die Kosten zu senken, ohne Kompromisse beim Datenschutz einzugehen.
Serverion vereinfacht diesen Prozess mit seinen Multi-Cloud-Backup-Lösungen. Ob Sie leistungsstarken SSD-Speicher für geschäftskritische Daten oder kostengünstigen Objektspeicher für die Archivierung benötigen – die flexiblen Optionen ermöglichen es Ihnen, Ihre RTO- und RPO-Ziele im Rahmen Ihres Budgets zu erreichen, ohne Kompromisse bei der Zuverlässigkeit für die Geschäftskontinuität einzugehen.
Wie kann ich die Datenübertragungsgeschwindigkeit für Multi-Cloud-Backups verbessern?
Um die Datenübertragungsgeschwindigkeit bei Multi-Cloud-Backups zu erhöhen, sollten Sie sich auf einige wenige Schlüsseltechniken konzentrieren. Beginnen Sie mit der Nutzung von Parallelverarbeitung Gleichzeitig wird das über das Netzwerk gesendete Datenvolumen reduziert. Durch die Konfiguration mehrerer Backup-Kanäle und die Aktivierung einer mittleren Komprimierungsstufe lässt sich die Bandbreite optimal nutzen, ohne die CPU übermäßig zu belasten. Ein weiterer Tipp: Teilen Sie große Dateien in kleinere Teile – jeweils etwa 1 GB – auf und weisen Sie diese Teile separaten Kanälen zu. Dadurch können mehrere Datenströme parallel verarbeitet werden, was den Durchsatz deutlich verbessert.
Paarung wöchentliche Voll-Backups mit tägliche inkrementelle Backups Das ist ein weiterer cleverer Ansatz. Indem Sie nur die geänderten Datenblöcke übertragen, sparen Sie Bandbreite und beschleunigen regelmäßige Backups. Behalten Sie die Übertragungsmetriken im Blick und planen Sie Backups idealerweise außerhalb der Spitzenzeiten, um Netzwerküberlastungen zu vermeiden. Sie möchten noch einen Schritt weiter gehen? Edge-Caching oder Hochgeschwindigkeitsspeicher in der Nähe des Cloud-Zugangspunkts reduzieren die Latenz und sorgen für reibungslosere Übertragungen.
Die Multi-Cloud-Hosting-Plattform von Serverion unterstützt diese Methoden mit ihrer robusten Infrastruktur und global verteilten Rechenzentren und hilft Ihnen so, schnellere und effizientere Backups zu erstellen.