Hubungi kami

info@serverion.com

Hubungi kami

+1 (302) 380 3902

Metrik Utama untuk Pemantauan Pencadangan Multi-Cloud

Metrik Utama untuk Pemantauan Pencadangan Multi-Cloud

Ingin cadangan data yang andal? Mulailah melacak metrik yang tepat. Pemantauan pencadangan multi-cloud menyederhanakan perlindungan data dengan mengkonsolidasikan semuanya ke satu tempat. Namun, hal yang benar-benar mengubah permainan adalah fokus pada metrik kunci yang memastikan pencadangan andal, pemulihan cepat, dan biaya tetap terkendali.

Berikut hal-hal yang perlu dipantau:

  • Tujuan Waktu Pemulihan (RTO): Seberapa lama sistem dapat mengalami gangguan sebelum berdampak pada bisnis?
  • Tujuan Titik Pemulihan (RPO): Seberapa besar kehilangan data yang dapat diterima?
  • Tingkat Keberhasilan Pencadangan: Apakah proses pencadangan selesai sesuai rencana?
  • Kecepatan Transfer Data: Seberapa cepat data dapat dipindahkan selama proses pencadangan?
  • Pemanfaatan Penyimpanan: Apakah kapasitas penyimpanan Anda hampir penuh?
  • Pemeriksaan Integritas Data: Apakah data cadangan Anda akurat dan tidak rusak?
  • Waktu Tanggap Insiden: Seberapa cepat kegagalan dapat diatasi?
  • Jumlah Sumber Daya yang Dilindungi: Apakah semua sistem penting tercakup?
  • Konsumsi Penyimpanan Backup Vault: Apakah Anda mengelola biaya penyimpanan secara efektif?
  • Log Akses dan Jejak Audit: Siapa yang mengakses cadangan data Anda dan kapan?

Melacak metrik ini membantu mencegah waktu henti, kehilangan data, dan pengeluaran berlebihan. Selain itu, hal ini memastikan sistem pencadangan Anda selaras dengan kebutuhan bisnis dan persyaratan kepatuhan.

Sesi Demo Tanya Pakar: Kelas Master Pemantauan Cadangan Cloud Hibrida Veeam ONE | Webinar

Veeam ONE

1. Tujuan Waktu Pemulihan (RTO)

Recovery Time Objective (RTO) adalah tentang menentukan berapa lama sistem Anda dapat mengalami gangguan setelah terjadi kegagalan sebelum mulai merugikan bisnis Anda. Sederhananya, ini adalah waktu henti maksimum yang dapat Anda toleransi sebelum semuanya perlu beroperasi penuh kembali. Kari Rivas, Senior Product Marketing Manager di Backblaze, menjelaskannya seperti ini:

""Pemulihan berarti sistem kembali beroperasi dan berfungsi penuh, sehingga pengguna (karyawan, pelanggan, dll.) dapat menggunakannya dengan cara yang sama seperti sebelum insiden data terjadi.""

Menentukan RTO (Recovery Time Objective) yang tepat sangat penting karena hal itu mengaitkan rencana pemulihan teknis Anda secara langsung dengan prioritas bisnis Anda.

Biaya waktu henti seringkali menentukan target RTO Anda. Misalnya, perusahaan perdagangan keuangan biasanya menargetkan RTO mendekati nol karena bahkan beberapa menit offline dapat merugikan jutaan dolar. Di sisi lain, sistem yang kurang kritis, seperti arsip internal, dapat bertahan dari waktu henti selama beberapa hari tanpa konsekuensi besar.

Gunakan pendekatan bertingkat untuk RTO (Registered Training Organisation): Tetapkan RTO (Recovery Time Objective) yang ketat untuk aplikasi kritis dan berikan fleksibilitas lebih untuk sistem yang kurang penting. Strategi ini menjaga biaya pemulihan tetap terkendali sekaligus memastikan operasi terpenting Anda terlindungi. Berkolaborasi dengan pimpinan departemen untuk memperkirakan dampak finansial dari waktu henti (downtime) untuk setiap sistem – ini mengubah RTO menjadi metrik yang berorientasi bisnis, bukan hanya metrik teknis.

Uji secara berkala "Recovery Time Reality" (RTR) Anda selama latihan atau insiden sebenarnya. Jika RTR Anda secara konsisten meleset dari target, itu pertanda sistem cadangan Anda perlu ditingkatkan. Misalnya, cadangan berbasis pita terkenal lambat karena memerlukan pengambilan dan pemuatan fisik. Sebaliknya, penyimpanan berbasis cloud menawarkan akses instan, yang dapat mempercepat waktu pemulihan secara dramatis. Latihan kebakaran dan latihan simulasi adalah alat yang bagus untuk memastikan tujuan RTO Anda realistis dan dapat dicapai.

2. Tujuan Titik Pemulihan (RPO)

Sementara RTO berfokus pada waktu henti yang dapat diterima, RPO berfokus pada seberapa banyak kehilangan data yang dapat ditoleransi. Pada dasarnya, RPO mengukur usia data yang akan Anda pulihkan dari cadangan terakhir Anda. Misalnya, jika RPO Anda adalah satu jam, Anda mengakui bahwa hingga 60 menit data dapat hilang dalam suatu insiden. Metrik ini sangat penting dalam pengaturan multi-cloud, di mana pelacakan yang tepat sangat penting untuk menyelaraskan upaya pemulihan dengan prioritas bisnis.

RPO (Recovery Point Objective) secara langsung memengaruhi seberapa sering pencadangan perlu dilakukan. RPO satu jam berarti pencadangan harus dijalankan setidaknya setiap jam. Untuk sistem kritis – misalnya gerbang pembayaran atau catatan pasien – RPO harus sedekat mungkin dengan nol. Di sisi lain, data yang kurang penting, seperti analitik pemasaran atau pesanan pembelian yang diarsipkan, dapat menangani RPO 13 hingga 24 jam tanpa menyebabkan gangguan besar.

Berikut statistik yang mengejutkan: lebih dari 721.300 perusahaan gagal mencapai target pemulihan mereka[1]. Seringkali, hal ini terjadi karena keputusan RPO diperlakukan sebagai keputusan teknis semata, bukan sebagai pilihan bisnis strategis. Kari Rivas, Manajer Pemasaran Produk Senior di Backblaze, menyoroti hal ini:

""Keputusan tentang standar apa yang harus dipenuhi adalah tanggung jawab bersama. Dan standar-standar tersebut… adalah target yang harus dipenuhi oleh tim penyedia TI dan infrastruktur.""

Mengetahui berapa biaya yang ditimbulkan oleh setiap menit waktu henti (downtime) bagi bisnis Anda dapat memberikan kejelasan dalam menetapkan target RPO (Recovery Point Objective) yang realistis.

Dalam lingkungan multi-cloud, di mana kinerja dapat bervariasi di berbagai penyedia dan wilayah, memantau kinerja Anda sangat penting. Titik Pemulihan Aktual (RPA) – kehilangan data aktual selama insiden – sangat penting. Jika RPA Anda secara konsisten gagal mencapai target, sudah saatnya untuk meningkatkan frekuensi pencadangan atau berinvestasi dalam infrastruktur yang lebih baik. Pencadangan otomatis dengan frekuensi tinggi seringkali merupakan satu-satunya cara untuk memenuhi RPO yang ketat, karena metode manual tidak dapat mengimbanginya.

Untuk mencapai keseimbangan antara biaya dan perlindungan, tetapkan RPO (Recovery Point Objective) yang lebih ketat untuk sistem kritis seperti otentikasi pelanggan dan RPO yang lebih longgar untuk data yang tidak kritis, seperti inventaris internal. Pendekatan bertingkat ini memastikan Anda melindungi hal yang paling penting tanpa menghabiskan terlalu banyak uang untuk sumber daya yang tidak perlu.

3. Tingkat Keberhasilan Pencadangan

Tingkat keberhasilan pencadangan mencerminkan persentase pekerjaan pencadangan yang selesai dibandingkan dengan yang gagal atau dilewati. Anggap saja ini sebagai laporan kinerja untuk sistem pencadangan Anda. Tingkat keberhasilan yang tinggi menandakan bahwa rencana perlindungan data Anda berjalan sesuai rencana, sementara penurunan metrik ini dapat mengganggu operasional bisnis, terutama pada saat-saat kritis.

Mempertahankan tingkat keberhasilan pencadangan yang tinggi sangat penting – lagipula, Anda tidak dapat memulihkan data yang tidak pernah dicadangkan sejak awal. Dalam pengaturan multi-cloud, memantau metrik ini bisa jadi rumit karena perlunya mengkonsolidasikan data dari berbagai penyedia. Misalnya, AWS Backup memperbarui CloudWatch setiap 5 menit dengan jumlah pekerjaan, sedangkan Google Cloud memperbarui metrik pencadangan setiap jam. Menggabungkan pembaruan ini memberi Anda gambaran yang lebih jelas tentang kinerja pencadangan secara keseluruhan.

Beberapa faktor dapat menyebabkan kegagalan pencadangan. Faktor-faktor tersebut meliputi konflik penjadwalan dengan jendela pemeliharaan (seperti untuk Amazon FSx atau layanan basis data), kehabisan ruang penyimpanan, atau masalah jaringan yang menyebabkan transfer terputus antar perangkat. penyedia cloud. Untuk mengantisipasi masalah ini, atur peringatan otomatis ketika kegagalan melebihi lima pekerjaan dalam satu jam. Menjalankan laporan tren selama 30 hari atau lebih dapat membantu mengungkap masalah yang berulang daripada masalah yang terjadi sekali saja.

Jika kegagalan terus berlanjut, pertimbangkan untuk menyesuaikan pendekatan Anda. Beralih ke pencadangan inkremental selamanya atau Perlindungan Data Berkelanjutan (CDP) dapat mengurangi volume data yang ditransfer, sehingga mengurangi beban pada sistem Anda. Perlu diingat bahwa AWS menandai pekerjaan sebagai "KADALUARSA" jika tidak dimulai dalam jangka waktu yang dijadwalkan, yang memengaruhi tingkat keberhasilan Anda bahkan jika tidak terjadi kesalahan teknis. Meninjau dan menyesuaikan jadwal pencadangan secara teratur dapat membantu mencegah konflik sumber daya selama jam sibuk. Penyempurnaan proses ini memastikan pencadangan Anda tetap andal sambil Anda tetap memantau metrik penting lainnya.

4. Kecepatan Transfer Data

Kecepatan transfer data menentukan seberapa cepat data cadangan berpindah dari satu titik ke titik lain, yang secara langsung memengaruhi berapa lama waktu yang dibutuhkan untuk menyelesaikan pencadangan. Sementara itu, bandwidth mengacu pada kapasitas total koneksi jaringan Anda, hasil keluaran mengukur kecepatan sebenarnya saat data diunggah atau diunduh. Seperti yang dikatakan Kari Rivas, Manajer Pemasaran Produk Senior di Backblaze:

""Throughput seringkali menjadi ukuran yang lebih penting bagi pelanggan pencadangan dan pengarsipan karena hal itu menunjukkan kecepatan unggah dan unduh yang akan dialami pengguna akhir.""

Ketika throughput tidak mencukupi, hal itu dapat mengganggu jadwal pencadangan dan menurunkan kinerja sistem. Kecepatan transfer yang lambat berarti pencadangan membutuhkan waktu lebih lama, berpotensi mengganggu jam kerja produksi. Di situlah konsep sebuah jendela cadangan Hal ini menjadi sangat penting – kerangka waktu spesifik yang dialokasikan agar proses pencadangan dapat berjalan tanpa mengganggu operasional sehari-hari. Jika kapasitas pemrosesan Anda tidak mampu menangani beban data dalam jangka waktu ini, Anda akan mengalami masalah. W. Curtis Preston, seorang kontributor di Network World, menyoroti risiko-risikonya:

""Setiap sistem penyimpanan memiliki kemampuan untuk menerima sejumlah volume cadangan per hari… Kegagalan untuk [memantau hal ini] dapat mengakibatkan proses pencadangan memakan waktu semakin lama dan berlanjut hingga ke jam kerja.""

Memantau nilai tukar sangat penting untuk mengidentifikasi hambatan jaringan Sebelum hal itu menyebabkan masalah yang lebih besar. Kecepatan rendah yang terus-menerus dapat mengindikasikan kemacetan jaringan, keterbatasan perangkat keras, atau bahkan pembatasan kecepatan oleh penyedia layanan Anda. Perhatikan antrian yang semakin panjang – ini adalah tanda bahwa sistem Anda kesulitan untuk mengimbangi aliran data.

Meningkatkan kecepatan transfer seringkali membutuhkan penyesuaian pengaturan. Multithreading adalah salah satu cara untuk meningkatkan kinerja dengan mengirimkan beberapa aliran data secara bersamaan, sehingga memanfaatkan bandwidth yang tersedia dengan lebih baik. Menyesuaikan ukuran blok atau bagian juga dapat membantu; bagian yang lebih besar mengurangi overhead yang disebabkan oleh panggilan API yang sering, meskipun membutuhkan lebih banyak memori. Bagi organisasi yang berjuang dengan jendela pencadangan yang ketat, beralih ke pencadangan inkremental selamanya atau Perlindungan Data Berkelanjutan (CDP) dapat menjadi solusi yang mengubah keadaan. Metode ini meminimalkan jumlah data yang ditransfer, mengurangi beban pada jaringan Anda.

5. Pemanfaatan Penyimpanan

Pemanfaatan penyimpanan memainkan peran utama dalam efisiensi pencadangan, bersamaan dengan kecepatan transfer. Memantau berapa banyak penyimpanan yang Anda gunakan di berbagai penyedia cloud dapat membantu Anda mengontrol biaya dan menghindari kelebihan alokasi. Pemantauan ruang pencadangan secara teratur memungkinkan Anda untuk melihat tren dan menyesuaikan kapasitas sebelum mencapai batas. Misalnya, laporan pemanfaatan pencadangan Google Cloud menggunakan regresi linier berdasarkan data historis untuk memprediksi kebutuhan penyimpanan di masa mendatang, memberikan administrator informasi awal tentang kapan harus meningkatkan kapasitas. Selain itu, menilai bagaimana deduplikasi dan penghapusan tepat waktu memengaruhi efisiensi penyimpanan dapat berdampak signifikan pada kinerja dan biaya.

Salah satu cara yang baik untuk mengevaluasi efisiensi deduplikasi dan kompresi adalah dengan membandingkan Ukuran Virtual untuk Byte yang Tersimpan. Jika angka-angka ini hampir identik, ini mungkin menandakan bahwa deduplikasi tidak berfungsi seefektif seharusnya. Alat seperti AWS Backup menyediakan metrik penyimpanan yang diperbarui di CloudWatch setiap lima menit, sementara Google Cloud memperbarui data penyimpanan backup vault setiap jam, memastikan Anda mendapatkan pembaruan berkala tentang kesehatan penyimpanan Anda.

Kegagalan menghapus titik pemulihan yang kedaluwarsa dapat menyebabkan biaya yang tidak perlu. Seperti yang dijelaskan oleh W. Curtis Preston, seorang spesialis pencadangan dan pemulihan yang terkenal:

""Satu-satunya cara untuk menciptakan kapasitas tambahan tanpa membeli lebih banyak adalah dengan menghapus cadangan yang lebih lama. Akan sangat disayangkan jika kegagalan memantau kapasitas sistem penyimpanan Anda mengakibatkan ketidakmampuan untuk memenuhi persyaratan retensi yang telah ditetapkan perusahaan Anda.""

Memantau pertumbuhan penyimpanan baik di tingkat aplikasi maupun host dapat menyoroti sumber daya mana yang mendorong biaya. Misalnya, Anda mungkin menemukan bahwa satu basis data memonopoli penyimpanan cadangan sementara aplikasi lain hampir tidak berpengaruh. Wawasan terperinci ini membantu Anda memfokuskan upaya optimasi di tempat yang paling penting. Menetapkan peringatan ambang batas – biasanya sekitar kapasitas 80% – juga dapat memberi Anda cukup waktu untuk bertindak sebelum mencapai tingkat kritis.

Terakhir, memahami metrik penagihan khusus penyedia sangat penting untuk menghindari kejutan. Misalnya, AWS Neptune's TotalBackupStorageBilled Metrik ini mencakup penyimpanan berkelanjutan dan snapshot, dengan kuota gratis harian, sementara Google Cloud memungkinkan Anda untuk memfilter metrik berdasarkan jenis sumber daya. Mengetahui detail ini memastikan Anda menggunakan tingkatan penyimpanan yang tepat dan tetap mengontrol biaya Anda.

6. Pemeriksaan Integritas Data

Pemeriksaan integritas data sangat penting untuk memastikan bahwa data yang dicadangkan tetap akurat dan tidak rusak sepanjang siklus hidupnya. Pemeriksaan ini bergantung pada teknik-teknik seperti jumlah cek dan validasi hash untuk memastikan bahwa file tetap utuh selama transfer, penyimpanan, dan pengambilan, bahkan saat bekerja di beberapa penyedia cloud.

Dengan memanfaatkan metrik pencadangan inti, pemeriksaan integritas membantu memastikan bahwa data Anda tetap aman, bahkan saat berpindah antar lingkungan cloud yang berbeda. Misalnya, data yang berpindah antar penyedia atau beralih dari penyimpanan hangat ke penyimpanan dingin mungkin mengalami kerusakan yang mungkin terlewatkan oleh log pencadangan standar. Titik pemulihan parsial – pencadangan yang telah dimulai tetapi tidak pernah sepenuhnya selesai – menimbulkan risiko lain, karena dapat menyebabkan file yang tidak lengkap atau rusak selama pemulihan.

Platform cloud modern menawarkan alat untuk membantu memantau integritas data secara hampir real-time. Misalnya, Pencadangan AWS CloudWatch memperbarui metrik setiap lima menit, memungkinkan Anda untuk dengan cepat mengidentifikasi dan mengatasi potensi masalah. Beberapa platform bahkan membedakan antara status seperti "Selesai" dan "Selesai dengan masalah", menandakan kapan pemeriksaan lebih lanjut diperlukan. Di sisi lain, Penyimpanan Objek Infrastruktur Cloud Oracle Mengambil pendekatan proaktif dengan secara otomatis memperbaiki data yang rusak menggunakan redundansi. Untuk benar-benar memvalidasi pemantauan integritas, sangat penting untuk melakukan uji pemulihan yang sebenarnya.

Tes pemulihan terjadwal juga membantu mengukur. Realitas Waktu Pemulihan (RTR) dan Realitas Titik Pemulihan (RPR) – indikator kunci tentang seberapa baik kinerja sistem pencadangan Anda dibandingkan dengan tujuan pemulihan Anda. Tes-tes ini memberikan wawasan tentang efektivitas strategi pencadangan Anda di dunia nyata.

Untuk perlindungan tambahan, menerapkan penyimpanan yang tidak dapat diubah menggunakan teknologi Write-Once-Read-Many (WORM), seperti Kunci Objek Amazon S3, Hal ini dapat mencegah data diubah setelah ditulis. Ini sangat berharga dalam melindungi dari serangan ransomware. Namun, penting untuk memindai data dari malware atau kerusakan sebelum menguncinya untuk menghindari penyimpanan kesalahan secara permanen. Melacak Skor Kualitas Data, yang menggabungkan metrik seperti konsistensi, kelengkapan, dan akurasi, juga dapat menawarkan gambaran yang jelas tentang kesehatan data cadangan Anda secara keseluruhan di semua lingkungan cloud.

7. Waktu Tanggap Insiden

Waktu respons insiden melacak durasi antara mendeteksi kegagalan dan menyelesaikannya. Ini dibagi menjadi dua sub-metrik utama: Waktu Rata-Rata untuk Mengakui (MTTA), yang mengukur seberapa cepat tim Anda merespons peringatan, dan Waktu Rata-rata untuk Pulih (MTTR), yang mengukur berapa lama waktu yang dibutuhkan untuk memulihkan operasi normal. Metrik ini bekerja sama dengan indikator kinerja lainnya yang telah dibahas sebelumnya.

""Ketika pekerjaan pencadangan awal gagal, ada kemungkinan besar bahwa tugas-tugas berikutnya juga akan gagal. Dalam skenario seperti itu, Anda dapat memahami jalannya peristiwa dengan lebih baik melalui pemantauan dan pemberitahuan." – Panduan Preskriptif AWS

Menentukan kriteria respons yang jelas berdasarkan tingkat keparahan insiden sangat penting. Organisasi sering kali menyelaraskan Tujuan Tingkat Layanan (Service Level Objectives/SLO) mereka dengan tingkat prioritas untuk memastikan penanganan insiden yang efisien:

  • P1 (Kritis)Konfirmasi dalam 5 menit, pemulihan dalam 4 jam
  • P2 (Tinggi)Konfirmasi dalam 15 menit, pemulihan dalam 12 jam
  • P3 (Sedang)Konfirmasi dalam 1 jam, pemulihan dalam 24 jam

Sistem peringatan yang kuat adalah tulang punggung respons insiden yang efektif. Dengan mengintegrasikan pemantauan cadangan dengan alat seperti Amazon CloudWatch atau Google Cloud Monitoring, Anda dapat mengatur notifikasi waktu nyata melalui layanan seperti Amazon SNS. Misalnya, konfigurasikan alarm untuk memicu tiket prioritas tinggi jika lebih dari lima pekerjaan pencadangan gagal dalam satu jam.

""Ketika MTTA rendah, itu berarti peringatan Anda sampai ke orang yang tepat dengan cepat. Ketika tinggi, itu sering menunjukkan kelelahan peringatan, kelebihan notifikasi, atau tanggung jawab yang tidak jelas." – Wiz

Otomatisasi memainkan peran penting dalam mencapai tujuan ini. Alat seperti Amazon EventBridge dapat mengotomatiskan proses eskalasi, memastikan pembuatan tiket yang cepat dan pelacakan MTTA yang konsisten. Untuk menjaga akurasi, sangat penting untuk mendefinisikan dengan jelas apa arti "diakui" di seluruh lingkungan multi-cloud Anda, memastikan semua orang memiliki pemahaman yang sama untuk metrik yang dapat ditindaklanjuti.

8. Jumlah Sumber Daya yang Dilindungi

Jumlah Sumber Daya yang Dilindungi mengukur jumlah mesin virtual, basis data, sistem file, dan komponen infrastruktur lainnya yang dilindungi oleh layanan pencadangan Anda. Ini adalah metrik kunci untuk menilai seberapa baik sistem pencadangan Anda mencakup lingkungan multi-cloud Anda. Penghitungan yang akurat sangat penting untuk memastikan tata kelola data yang tepat, terutama karena adopsi multi-cloud telah melampaui 90% di sektor swasta dan publik. Melacak aset yang dilindungi ini sekarang menjadi landasan kepatuhan dan tata kelola di lingkungan cloud.

Nilai sebenarnya dari metrik ini menjadi jelas ketika Anda membandingkannya dengan total inventaris infrastruktur Anda. Banyak platform cloud menyediakan alat untuk menghitung aset yang dilindungi, memungkinkan Anda untuk mengidentifikasi celah dalam cakupan. Dengan membandingkan jumlah ini dengan seluruh inventaris Anda, Anda dapat dengan cepat menentukan sumber daya yang mungkin tidak terlindungi.

Untuk tetap unggul, alat penemuan otomatis sangat penting. Di lingkungan cloud yang dinamis, sumber daya baru terus ditambahkan, dan tanpa pemindaian otomatis, beberapa sumber daya – yang sering disebut sebagai sumber daya "bayangan" – dapat melewati kebijakan pencadangan. Misalnya, bilah "Sumber daya yang dapat dilindungi" Azure menyoroti aset yang belum dicadangkan, sehingga memudahkan untuk mengatasi kesenjangan ini dengan segera.

Mengatur peringatan dapat lebih meningkatkan pengawasan Anda. Misalnya, Anda dapat mengkonfigurasi CloudWatch atau Google Cloud Monitoring untuk mengirimkan pemberitahuan jika persentase aset yang dilindungi turun di bawah ambang batas, seperti 95% dari total inventaris Anda. Pendekatan proaktif ini membantu Anda mendeteksi potensi kerentanan sebelum menyebabkan kehilangan data. Selain itu, memberi label pada sumber daya dengan label seperti "BackupTier: Gold" atau "BackupTier: Silver" dapat menyederhanakan penegakan kebijakan dan mempermudah pelacakan di berbagai tim atau departemen.

Dasbor terpusat adalah alat penting lainnya untuk menjaga visibilitas di seluruh lingkungan multi-cloud. AWS Backup, misalnya, memperbarui metrik di CloudWatch setiap 5 menit, sementara Google Cloud menyediakan pembaruan setiap jam tentang penggunaan penyimpanan. Dengan menggunakan platform yang menormalisasi format data – seperti yang menerima JSON atau syslog – Anda dapat memastikan pelaporan yang konsisten di berbagai penyedia cloud. Audit rutin terhadap API infrastruktur lebih lanjut memverifikasi bahwa semua sumber daya tercakup, membantu Anda menjaga kepatuhan dan menghindari celah dalam perlindungan.

9. Konsumsi Penyimpanan Backup Vault

Memantau penggunaan penyimpanan brankas cadangan sangat penting untuk mengelola biaya dan merencanakan kapasitas secara efektif. Salah satu metrik utama yang perlu dilacak adalah... volume data tersimpan (diukur dalam GiB atau TB). Metrik ini mengungkapkan berapa banyak ruang yang terpakai, membantu Anda menghindari batas kapasitas atau masalah penagihan yang tidak terduga.

Metrik penting lainnya adalah pemanfaatan kolam penyimpanan, yang menunjukkan persentase ruang yang terpakai dibandingkan dengan ruang yang tersedia di sistem pencadangan Anda. Jika penggunaan mulai mendekati ambang batas yang telah ditentukan, saatnya untuk memperluas kapasitas atau menghapus cadangan yang sudah usang. Misalnya, AWS Backup memperbarui metrik ini setiap 5 menit menggunakan CloudWatch, sementara Google Cloud memperbarui nilainya setiap jam dan mengulang data terbaru setiap 5 menit.

Pemantauan juga sangat penting. hari retensi minimum untuk memastikan data disimpan selama periode yang dibutuhkan. Selain itu, melacak stempel waktu pemulihan pertama dan terakhir dapat membantu memvalidasi siklus hidup pencadangan Anda dan memastikan kepatuhan terhadap peraturan.

Salah satu faktor pendorong biaya potensial adalah titik pemulihan kedaluwarsa yang gagal dihapus. AWS Backup menyediakan metrik tersebut. JumlahPoinPemulihanKedaluwarsa, yang mengidentifikasi cadangan yang seharusnya sudah dihapus tetapi masih memakan ruang. Hal ini dapat menyebabkan biaya penyimpanan yang lebih tinggi. Demikian pula, Jumlah Titik Pemulihan Dingin Metrik ini membantu mengkonfirmasi bahwa data lama sedang beralih ke tingkatan arsip berbiaya lebih rendah sesuai rencana. Meskipun penyimpanan arsip lebih murah, perlu dicatat bahwa biaya pengambilan data ini mungkin lebih tinggi.

Untuk tetap unggul, siapkan peringatan ambang batas Untuk manajemen proaktif, sistem pemantauan Anda harus memberi tahu Anda ketika pemanfaatan penyimpanan melebihi batas yang ditetapkan atau ketika jumlah titik pemulihan yang kedaluwarsa mulai meningkat. Membagi metrik konsumsi berdasarkan jenis sumber daya juga bermanfaat – seperti instance Compute Engine, basis data SQL, atau sistem Oracle. Dengan cara ini, Anda dapat menentukan beban kerja mana yang mendorong pertumbuhan penyimpanan dan menyesuaikan kebijakan retensi sesuai dengan kebutuhan.

Bagi mereka yang menggunakan Serverion‘solusi pencadangan multi-cloud (ServerionDengan demikian, mengintegrasikan strategi pemantauan ini dapat meningkatkan kinerja dan efisiensi biaya. Praktik-praktik ini menjadi dasar untuk membahas metrik operasional yang lebih detail di bagian selanjutnya.

10. Log Akses dan Jejak Audit

Setiap tindakan yang melibatkan infrastruktur cadangan Anda – baik itu memulihkan data, mengubah kebijakan, atau bahkan hanya membaca informasi – perlu dicatat dengan cermat. Log akses dan jejak audit memberikan catatan terperinci tentang siapa yang mengakses apa, kapan, dan dari mana. Tingkat transparansi ini sangat penting untuk investigasi keamanan dan memenuhi persyaratan peraturan.

Log audit harus mencatat semua detail penting untuk setiap kejadian. Ini termasuk pengguna atau peran IAM yang terlibat, jenis tindakan yang dilakukan (misalnya, RestoreBackup, DeleteBackup, CreateBackupPlan), alamat IP sumber, sumber daya yang terdampak, stempel waktu, dan hasil dari tindakan tersebut. Untuk proses yang berjalan lama, Google Cloud Backup and DR menghasilkan dua entri log terpisah: satu saat operasi dimulai dan satu lagi saat operasi berakhir.

Platform cloud biasanya memisahkan log menjadi dua kategori: Log Aktivitas Admin untuk perubahan konfigurasi dan Log Akses Data untuk operasi yang melibatkan data sensitif. Log Aktivitas Admin biasanya diaktifkan secara default, tetapi log Akses Data seringkali memerlukan aktivasi manual. Di Google Cloud, misalnya, log Akses Data dinonaktifkan secara default (kecuali untuk BigQuery) karena ukurannya. Namun, mengaktifkan log ini sangat penting untuk melacak siapa yang melihat atau memulihkan data sensitif, sehingga memastikan kepatuhan terhadap peraturan privasi.

Untuk memperkuat pemantauan Anda, siapkan peringatan waktu nyata untuk tindakan penting seperti DeleteBackup. Selain itu, arahkan log ke solusi penyimpanan terpusat untuk memenuhi persyaratan retensi, yang dapat bervariasi dari 30 hari hingga 10 tahun, tergantung pada standar kepatuhan. Opsi penyimpanan terpusat mencakup platform seperti Azure Log Analytics atau Cloud Storage.

Untuk lingkungan multi-cloud, alat-alat seperti Serverion Dapat menyederhanakan manajemen log. Dengan mengkonsolidasikan log dari AWS CloudTrail, Azure Activity Logs, dan Google Cloud Audit Logs ke dalam satu sistem SIEM, Anda dapat mencapai visibilitas terpadu di seluruh infrastruktur pencadangan Anda. Pendekatan ini tidak hanya menyederhanakan pemantauan tetapi juga meningkatkan kemampuan Anda untuk menjaga kepatuhan di berbagai platform.

Tabel Perbandingan

10 Metrik Pencadangan Multi-Cloud Teratas: Kategori, Pengukuran, dan Ambang Batas Peringatan

10 Metrik Pencadangan Multi-Cloud Teratas: Kategori, Pengukuran, dan Ambang Batas Peringatan

Untuk mempermudah pemahaman, tabel ini mengelompokkan metrik pencadangan utama ke dalam tiga kategori: kinerja, keamanan/kesehatan, dan kapasitas. Pengelompokan metrik seperti ini membantu mengidentifikasi potensi masalah dan memberikan peta jalan yang jelas untuk mengatasinya. Di bawah ini, Anda akan menemukan sembilan metrik penting, masing-masing dengan tujuannya, cara pengukurannya, dan ambang batas peringatan yang menandakan sesuatu perlu diperhatikan.

Metrik kinerja Fokusnya adalah pada seberapa cepat proses pencadangan dan pemulihan terjadi. Mereka menjawab pertanyaan seperti: Apakah pencadangan selesai tepat waktu? Dapatkah data dipulihkan cukup cepat selama krisis? Misalnya, jika Recovery Time Objective (RTO) Anda ditetapkan pada 4 jam tetapi waktu pemulihan aktual (RTR) Anda secara teratur mencapai 6 jam, itu adalah tanda yang jelas bahwa sistem Anda mungkin perlu perbaikan total.

Metrik keamanan dan kesehatan Pantau apakah pencadangan Anda berfungsi sebagaimana mestinya dan pastikan data Anda tetap utuh. Misalnya, jika tingkat keberhasilan pencadangan Anda turun di bawah 99% atau Anda mengalami lebih dari lima kegagalan pencadangan dalam satu jam, sudah saatnya untuk melakukan investigasi.

Metrik kapasitas Membantu menghindari kegagalan terkait penyimpanan dengan memantau penggunaan. Misalnya, mengatur peringatan ketika pemanfaatan penyimpanan mencapai 80–90% dapat mencegah gangguan yang disebabkan oleh kehabisan ruang.

Kategori Metrik Tujuan Contoh Pengukuran Ambang Peringatan yang Direkomendasikan
Performa Tujuan Waktu Pemulihan (RTO) Pastikan kecepatan pemulihan memenuhi kebutuhan bisnis. Beberapa menit atau jam untuk memulihkan RTR melebihi RTO yang ditetapkan oleh bisnis.
Performa Kecepatan Transfer Data (Throughput) Kecepatan pencadangan dan pemulihan pengukur MB/detik atau TB/jam Di bawah kecepatan perangkat keras minimum
Performa Pemanfaatan Jendela Cadangan Pastikan proses pencadangan selesai dalam waktu yang telah ditentukan. Durasi waktu (HH:MM) > 100% dari jendela yang ditentukan
Keamanan/Kesehatan Tingkat Keberhasilan Pencadangan Pantau keandalan perlindungan data. Jumlah keberhasilan/kegagalan % < 99% keberhasilan atau > 5 kegagalan per jam
Keamanan/Kesehatan Pemeriksaan Integritas Data Verifikasi bahwa data tidak rusak dan dapat dipulihkan. Jumlah tes yang berhasil < 1 pemulihan berhasil dalam 24 jam
Keamanan/Kesehatan Peristiwa Status Kesehatan Mengidentifikasi kegagalan yang bersifat permanen dan sementara. Kondisi sehat, tidak sehat, dan memburuk. Segala bentuk "kondisi tidak sehat yang berkelanjutan"
Kapasitas Pemanfaatan Penyimpanan Mencegah kehabisan stok % byte yang digunakan/disimpan Kapasitas > 80–90%
Kapasitas Konsumsi Penyimpanan Backup Vault Pantau biaya dan penggunaan penyimpanan cloud. GB atau TB Jumlah data melebihi ambang batas anggaran.
Kapasitas Jumlah Sumber Daya yang Dilindungi Pastikan semua aset penting terlindungi. Jumlah instance yang dilindungi Jumlah < persediaan yang diharapkan

Tabel ini menggarisbawahi pentingnya bertindak cepat ketika ambang batas terlampaui. Memantau metrik ini memastikan sistem cadangan Anda tetap andal, aman, dan siap menangani apa pun yang terjadi.

Kesimpulan

Memantau metrik yang tepat dapat menggeser operasi pencadangan multi-cloud Anda dari sekadar bereaksi terhadap masalah menjadi proaktif dalam mencegahnya. Dengan memantau tingkat keberhasilan pekerjaan, pemanfaatan penyimpanan, Dan kinerja pemulihan, Dengan demikian, Anda menciptakan jaring pengaman yang mengurangi risiko kehilangan data dan waktu henti.

Metrik yang telah kita bahas berfokus pada tiga area utama: perlindungan data, keamanan, Dan pengendalian biaya. Menetapkan peringatan ambang batas dan secara teratur membandingkan waktu pemulihan aktual dengan target RTO (Recovery Time Objective) dan RPO (Recovery Point Objective) Anda dapat membantu Anda mendeteksi potensi masalah sebelum menjadi kritis. Seperti yang dikatakan Cody Slingerland, Praktisi Bersertifikasi FinOps:

""Anda tidak bisa memperbaiki apa yang tidak Anda ukur.""

Wawasan ini menyoroti pentingnya pemantauan menyeluruh untuk memastikan keberlangsungan bisnis.

Dengan menggunakan metrik ini, Anda dapat membuat keputusan yang lebih cerdas tentang alokasi sumber daya, menghindari penghapusan darurat, dan memastikan pencadangan selesai tepat waktu. Ketika organisasi mendokumentasikan dan membagikan metrik ini kepada manajemen, mereka sering kali merasa lebih mudah untuk membenarkan peningkatan infrastruktur dan menunjukkan nilai dari sistem pencadangan mereka.

Ambil langkah-langkah praktis seperti mengatur peringatan otomatis untuk kegagalan yang melebihi lima pekerjaan per jam, secara teratur menguji pemulihan untuk memvalidasi RTO dan RPO Anda, dan menerapkan filter multidimensi untuk mengidentifikasi platform atau sumber daya yang membutuhkan perhatian. Tindakan-tindakan ini mengubah data mentah menjadi peningkatan yang bermakna, memperkuat infrastruktur pencadangan Anda.

Menerapkan praktik pemantauan ini memberi Anda kejelasan dan keyakinan untuk mengelola pencadangan multi-cloud secara efektif. Dengan demikian, Anda akan mengurangi risiko, mengendalikan biaya, dan mendapatkan jaminan bahwa data Anda aman.

Tanya Jawab Umum

Apa saja metrik kunci yang perlu dipantau untuk keberhasilan operasi pencadangan multi-cloud?

Memantau metrik yang tepat adalah kunci untuk menjaga agar operasi pencadangan multi-cloud Anda berjalan lancar dan andal. Perhatikan baik-baik hal-hal berikut: Tujuan Waktu Pemulihan (RTO) dan Tujuan Titik Pemulihan (RPO) – metrik ini mengungkapkan seberapa cepat dan efektif Anda dapat memulihkan data Anda saat dibutuhkan. Faktor penting lainnya adalah memantau kecepatan transfer data dan latensi untuk memastikan pencadangan terjadi tepat waktu dan tanpa gangguan di seluruh lingkungan cloud Anda.

Penting juga untuk melacaknya. pemanfaatan penyimpanan, Termasuk kapasitas total dan ruang yang tersedia, untuk memaksimalkan sumber daya Anda. Memantau Tingkat keberhasilan pekerjaan pencadangan dan volume total data yang diproses Hal ini dapat membantu Anda mendeteksi potensi masalah sejak dini, sebelum masalah tersebut semakin memburuk. Dengan memantau metrik ini secara konsisten, Anda dapat mempertahankan strategi pencadangan yang andal dan efisien.

Bagaimana bisnis dapat menyeimbangkan biaya dan perlindungan saat menetapkan target RTO dan RPO?

Untuk mencapai keseimbangan yang tepat antara biaya dan perlindungan saat mengatur Tujuan Waktu Pemulihan (RTO) dan Tujuan Titik Pemulihan (RPO), Langkah pertama adalah analisis dampak bisnis yang menyeluruh. Ini membantu Anda menentukan aplikasi mana yang benar-benar penting dan membutuhkan RTO dan RPO terpendek, serta aplikasi mana yang dapat menangani waktu pemulihan yang lebih lama dan beberapa kehilangan data. Misalnya, beban kerja kritis harus memiliki pencadangan yang sering, sementara data yang kurang penting dapat disimpan menggunakan opsi yang lebih ekonomis dengan interval pencadangan yang lebih lama.

Dengan mengorganisir pencadangan ke dalam tingkatan – berdasarkan frekuensi dan jenis penyimpanan – Anda dapat menghindari pengeluaran yang tidak perlu untuk menggunakan penyimpanan berkinerja tinggi untuk semua data Anda. Pengujian pemulihan secara berkala sangat penting untuk memastikan bahwa target RTO dan RPO Anda dapat dicapai dengan pengaturan Anda saat ini. Jika tidak, Anda mungkin perlu mengeksplorasi opsi seperti pencadangan inkremental, deduplikasi, atau alat berbasis cloud yang efisien untuk mengelola biaya tanpa mengorbankan perlindungan.

Serverion menyederhanakan proses ini dengan solusi pencadangan multi-cloud-nya. Baik Anda membutuhkan penyimpanan SSD berkinerja tinggi untuk data penting atau penyimpanan objek hemat biaya untuk pengarsipan, opsi fleksibel mereka memungkinkan Anda memenuhi target RTO dan RPO sambil tetap sesuai anggaran – semuanya tanpa mengorbankan keandalan untuk kelangsungan bisnis.

Bagaimana cara meningkatkan kecepatan transfer data untuk pencadangan multi-cloud?

Untuk meningkatkan kecepatan transfer data dalam pencadangan multi-cloud, fokuslah pada beberapa teknik utama. Mulailah dengan memanfaatkan pemrosesan paralel Sambil mengurangi volume data yang dikirim melalui jaringan. Mengkonfigurasi beberapa saluran cadangan dan mengaktifkan kompresi tingkat menengah dapat memaksimalkan bandwidth Anda, tanpa terlalu membebani CPU Anda. Tips lainnya? Bagi file besar menjadi bagian-bagian yang lebih kecil – sekitar 1 GB setiap bagian – dan tetapkan bagian-bagian ini ke saluran terpisah. Ini memungkinkan beberapa aliran data untuk bekerja secara bersamaan, sehingga meningkatkan throughput secara signifikan.

Memasangkan pencadangan penuh mingguan dengan pencadangan tambahan harian Ini adalah pendekatan cerdas lainnya. Dengan hanya mengirimkan blok data yang berubah, Anda dapat menghemat bandwidth dan mempercepat tugas pencadangan rutin. Perhatikan metrik transfer dan pertimbangkan untuk menjadwalkan pencadangan selama jam-jam di luar jam sibuk untuk menghindari kemacetan jaringan. Ingin melangkah lebih jauh? Menggunakan edge caching atau penyimpanan berkecepatan tinggi di dekat titik masuk cloud dapat mengurangi latensi, membuat transfer Anda menjadi lebih lancar.

Platform hosting multi-cloud Serverion mendukung metode-metode ini dengan infrastruktur yang tangguh dan pusat data yang tersebar secara global, membantu Anda mencapai pencadangan yang lebih cepat dan efisien.

Artikel Blog Terkait

id_ID