Hubungi kami

info@serverion.com

Hubungi kami

+1 (302) 380 3902

Langkah-langkah Pengujian Failover Manual

Langkah-langkah Pengujian Failover Manual

Pengujian failover manual memastikan sistem Anda dapat beralih ke cadangan selama pemadaman atau pemeliharaan tanpa mengganggu operasi. Berikut ikhtisar singkat prosesnya:

  • Mengapa Ini Penting: Uji langkah pemulihan, konfirmasikan kapasitas cadangan, latih tim, dan cegah masalah di masa mendatang.
  • Perencanaan: Tetapkan sasaran (misalnya, waktu henti di bawah 15 menit), pilih sistem penting (basis data, aplikasi), dan jadwalkan pengujian di luar jam sibuk.
  • PersiapanVerifikasi kesiapan sistem, sinkronisasi data, pencadangan, dan konektivitas jaringan.
  • Eksekusi: Ikuti rencana failover langkah demi langkah, pantau log, dan validasi sistem cadangan dan fungsionalitas aplikasi.
  • Pemulihan: Beralih kembali ke sistem utama setelah pengujian, konfirmasikan konsistensi data, dan dokumentasikan hasil untuk perbaikan di masa mendatang.

Proses ini meminimalkan waktu henti, memastikan integritas data, dan mempersiapkan tim Anda untuk insiden nyata. Pengujian rutin (setiap tiga bulan) dan dokumentasi yang disempurnakan dapat membuat strategi failover Anda lebih andal.

Menguji Alur Kerja Failover

Merencanakan Uji Failover

Perencanaan yang cermat memastikan gangguan minimal dan memastikan ketahanan sistem selama pengujian failover manual. Berikut cara menetapkan sasaran, memilih sistem, menjadwalkan pengujian, dan menyiapkan dokumentasi.

Menetapkan Tujuan Ujian

Tetapkan tujuan yang jelas untuk pemulihan bencana, seperti:

  • Waktu henti maksimum yang diizinkan selama failover (targetkan di bawah 15 menit)
  • Memverifikasi konsistensi data di seluruh sistem
  • Memastikan fungsionalitas aplikasi setelah failover
  • Mengukur kinerja jaringan
  • Mengonfirmasi akses dan autentikasi pengguna

Memilih Sistem Uji

Fokus pada sistem penting, termasuk:

  • Server basis data utama
  • Aplikasi yang berhadapan dengan pelanggan
  • Alat internal untuk operasi bisnis
  • Sistem otentikasi
  • Infrastruktur jaringan inti

Gunakan peta ketergantungan untuk memahami interaksi sistem. Ini membantu Anda memutuskan komponen mana yang perlu diuji bersama dan mana yang dapat diisolasi.

Jadwal Uji Coba dan Pembaruan Tim

Rencanakan pengujian di luar jam sibuk dan pertimbangkan hal berikut:

  • Perawatan Jendela:Sejajarkan pengujian dengan waktu pemeliharaan yang telah dijadwalkan sebelumnya.
  • Zona Waktu: Pertimbangkan lokasi tim global dan jam kerja yang bervariasi.
  • Ketersediaan Sumber DayaPastikan anggota tim utama tersedia untuk seluruh pengujian.
  • Kalender Bisnis: Hindari periode sibuk seperti pemrosesan akhir bulan.

Beritahukan pemangku kepentingan tentang jadwal pengujian setidaknya dua minggu sebelumnya. Sertakan detail seperti:

  • Diperkirakan waktu henti sistem
  • Kemungkinan gangguan layanan
  • Informasi kontak darurat
  • Prosedur pembatalan

Menulis Rencana Pengujian

Rencana pengujian yang menyeluruh harus mencakup:

1. Daftar Periksa Pra-Failover

Daftarkan semua langkah persiapan, seperti mencadangkan sistem, memverifikasi sinkronisasi data, dan mengalokasikan sumber daya.

2. Langkah-langkah Eksekusi

Jelaskan urutan tindakan yang tepat untuk failover. Sertakan perintah, perubahan konfigurasi, dan titik validasi.

3. Kriteria Keberhasilan

Tentukan metrik untuk mengukur keberhasilan, seperti:

  • Waktu respons sistem
  • Pemeriksaan integritas data
  • Pengujian fungsionalitas aplikasi
  • Validasi akses pengguna

4. Prosedur Rollback

Berikan langkah-langkah terperinci untuk kembali ke sistem utama jika terjadi masalah. Tentukan kondisi yang akan memicu pengembalian.

Pemeriksaan Kesiapan Sistem

Sebelum memulai uji failover, penting untuk memastikan bahwa semua komponen utama sudah terpasang. Ini membantu menciptakan kondisi pengujian yang optimal dan mengurangi risiko masalah yang tidak terduga. Fokus pada peninjauan konfigurasi sistem, pemeriksaan sinkronisasi data, memastikan cadangan berfungsi dengan baik, dan pengujian konektivitas jaringan.

Tinjauan Pengaturan Sistem

Mulailah dengan memverifikasi pengaturan sistem saat ini:

  • Periksa alokasi CPU, memori, dan penyimpanan.
  • Pastikan semua layanan yang diperlukan berjalan.
  • Verifikasi izin dan kontrol akses.
  • Periksa ulang pengaturan keamanan.
  • Memastikan alat pemantauan telah disiapkan dengan benar.

Catat konfigurasi ini, termasuk nomor versi, level patch, dan pengaturan, sehingga Anda dapat memvalidasinya setelah uji failover. Langkah-langkah ini memastikan sistem siap untuk pengujian.

Status Sinkronisasi Data

Setelah meninjau konfigurasi sistem, konfirmasikan bahwa sinkronisasi data berfungsi seperti yang diharapkan:

  • Mengukur kelambatan replikasi.
  • Periksa konsistensi basis data.
  • Verifikasi sinkronisasi sistem berkas.
  • Validasi integritas data menggunakan checksum.

Fokus pada indikator sinkronisasi waktu nyata. Untuk sebagian besar aplikasi bisnis, jeda replikasi harus di bawah 60 detik. Ini memastikan data siap untuk uji failover.

Pemeriksaan Sistem Cadangan

Periksa sistem cadangan secara menyeluruh untuk memastikannya siap:

Perangkat keras:

  • Periksa sistem daya dan pendinginan.
  • Pastikan kapasitas penyimpanan dan kinerja memenuhi persyaratan.
  • Verifikasi kartu antarmuka jaringan.
  • Periksa komponen yang berlebihan.

Perangkat lunak:

  • Menilai kesehatan sistem operasi.
  • Pastikan dependensi aplikasi berfungsi.
  • Periksa alat dan utilitas cadangan.
  • Validasi agen pemantauan.

Kontrol Akses:

  • Menguji sistem autentikasi.
  • Tinjau izin pengguna.
  • Pastikan sertifikat keamanan valid.
  • Verifikasi koneksi VPN.

Pemeriksaan ini memastikan sistem cadangan beroperasi penuh dan siap untuk uji failover.

Pemeriksaan Jaringan

Evaluasi konektivitas jaringan menggunakan kriteria berikut:

Jenis Tes Kriteria Penerimaan Metode
Latensi Di bawah 50ms Tes ping
Bandwidth Lebih dari 1 Gbps pengujian iperf3
Resolusi DNS Di bawah 100ms menggali/nslookup
Penyeimbang Beban Status aktif/pasif Pemeriksaan kesehatan

Jalankan pengujian ini dari berbagai segmen jaringan untuk memastikan semua jalur failover potensial tercakup. Dokumentasikan metrik kinerja dasar untuk perbandingan selama dan setelah proses failover.

Selain itu, verifikasi bahwa jalur jaringan redundan dikonfigurasi dan tersedia. Uji failover otomatis untuk komponen jaringan jika berlaku, dan pastikan semua port dan protokol yang diperlukan terbuka antara situs utama dan cadangan.

Menjalankan Uji Failover

Setelah menyelesaikan pemeriksaan kesiapan, lanjutkan proses failover dengan hati-hati untuk mengurangi potensi gangguan.

Mulai Failover

  • Beritahukan pemangku kepentingan setidaknya 15 menit sebelumnya.
  • Hentikan semua transaksi dan pastikan tidak ada jeda replikasi.
  • Mulailah urutan failover dan catat waktu mulai yang tepat.

Awasi dengan saksama bagaimana sistem merespons pada awalnya. Proses failover biasanya memerlukan waktu 30-45 detik. Jika memerlukan waktu lebih lama, segera selidiki. Setelah proses dimulai, alihkan fokus Anda ke pemantauan log secara real-time untuk mengidentifikasi masalah yang muncul.

Tonton Log Sistem

Pemantauan log sistem sangat penting untuk mendeteksi masalah sejak dini:

Jenis Log Tanda Peringatan Peringatan Kritis
Aplikasi Waktu koneksi habis Layanan mogok
Basis Data Kesalahan replikasi Korupsi data
Jaringan Kehilangan paket > 1% Kegagalan koneksi
Keamanan Penundaan autentikasi Pelanggaran akses

Biarkan antarmuka baris perintah (CLI) tetap terbuka untuk melacak pesan secara real-time. Berikan perhatian ekstra pada kode kesalahan yang dimulai dengan "FAIL" atau "ERR", karena kode ini sering kali menandakan masalah mendesak yang memerlukan perhatian segera.

Periksa Situs Cadangan

Setelah memulai failover, konfirmasikan bahwa situs cadangan berfungsi dengan benar:

1. Ketersediaan Layanan

Pastikan semua layanan inti di situs cadangan menunjukkan status 'AKTIF' dalam waktu 60 detik. Catat setiap penundaan untuk ditinjau.

2. Pemanfaatan Sumber Daya

Pantau metrik penting ini selama transisi:

  • Penggunaan CPU: Harus tetap di bawah 80%.
  • Penggunaan memori: Targetkan pemanfaatan kurang dari 75%.
  • Penyimpanan I/O: Pertahankan di bawah 2.000 IOPS.
  • Throughput jaringan: Harapkan penggunaan pada 40-60% dari tingkat normal.

3. Distribusi Beban

Verifikasi bahwa lalu lintas diarahkan dengan benar ke situs cadangan. Periksa metrik penyeimbang beban untuk memastikan lalu lintas didistribusikan secara merata di seluruh sumber daya yang tersedia.

Uji Aplikasi dan Data

Segera uji aplikasi utama dan validasi integritas data:

  • Pengujian Aplikasi Inti: Melakukan operasi CRUD dasar, menguji autentikasi pengguna, memeriksa alur kerja bisnis penting, dan mengonfirmasi respons API.
  • Validasi DataPastikan konsistensi basis data, verifikasi integritas sistem berkas, konfirmasikan transaksi terkini, dan uji kecepatan pengambilan data.

Fokus pada pengujian aplikasi yang sangat penting terlebih dahulu sebelum beralih ke sistem sekunder. Dokumentasikan setiap kejanggalan, seperti waktu respons yang menyimpang lebih dari 20% dari pengukuran dasar.

Pengujian Setelah Failover

Setelah situs cadangan aktif dan berjalan, langkah selanjutnya adalah memastikan bahwa fungsi bisnis penting berfungsi dengan baik. Ini melibatkan pemeriksaan dan verifikasi operasi secara cermat untuk memastikan semuanya berjalan sebagaimana mestinya.

Pemeriksaan Fungsi Bisnis

  • Jalankan siklus transaksi bisnis penuh untuk mengonfirmasi alur kerja dan aliran data dengan lancar, termasuk integrasi eksternal.
  • Uji koneksi utama dengan sistem eksternal yang tidak tercakup selama pengujian aplikasi sebelumnya.
  • Pastikan semua tugas yang dijadwalkan dieksekusi tepat waktu.
  • Periksa keakuratan sistem pelaporan untuk menghindari perbedaan pendapat.

Langkah-langkah ini membantu memastikan bahwa lingkungan cadangan dapat menangani operasi penting tanpa gangguan. Menjalankan validasi ini beberapa kali memastikan kinerja yang konsisten dan memungkinkan Anda mengatasi masalah dengan cepat.

Beralih Kembali ke Sistem Utama

Setelah memastikan bahwa sistem cadangan berfungsi dengan baik, saatnya untuk kembali ke sistem utama. Ini melibatkan pembalikan langkah-langkah sebelumnya untuk memulihkan operasi normal.

Mulai Proses Pengembalian

Beritahukan semua pemangku kepentingan terkait dan berkoordinasilah dengan tim teknis. Siapkan daftar periksa untuk melacak setiap langkah proses, termasuk sinkronisasi basis data dan waktu peralihan aplikasi.

Pastikan untuk:

  • Pastikan semua proses kritis telah selesai.
  • Pastikan tidak ada transaksi tertunda yang tersisa.
  • Dokumentasikan aturan perutean sementara untuk referensi selama pembalikan.
  • Verifikasi bahwa operasi sistem berfungsi seperti yang diharapkan.

Verifikasi Sinkronisasi Data

Pastikan konsistensi data antara sistem dengan memeriksa:

  • Pemutaran ulang log transaksi basis data yang akurat.
  • Sinkronisasi lengkap perubahan sistem berkas.
  • Penyelarasan catatan yang diberi cap waktu di seluruh sistem.
  • Penghapusan file sementara yang digunakan selama failover.

Gunakan alat seperti checksum atau perangkat lunak perbandingan untuk mengonfirmasi bahwa semua data yang dimodifikasi selama failover cocok antara sistem sebelum melanjutkan dengan peralihan akhir.

Periksa Sistem Primer

Lakukan pemeriksaan kesehatan menyeluruh untuk memastikan sistem utama siap:

  1. Status Infrastruktur: Verifikasi bahwa semua komponen perangkat keras berfungsi.
  2. Konektivitas Jaringan: Periksa dan konfirmasikan konfigurasi perutean yang tepat.
  3. Layanan Aplikasi: Mulai layanan aplikasi dalam urutan yang benar.
  4. Sistem KeamananPastikan semua tindakan keamanan aktif dan berfungsi.

Dokumentasikan Hasil

Setelah sistem utama dipulihkan sepenuhnya, catat hasilnya untuk menyempurnakan proses di masa mendatang:

  1. Metrik Uji
    Mencatat metrik utama seperti durasi failover, waktu sinkronisasi data, jumlah masalah, dan perbandingan kinerja.
  2. Dokumentasi Masalah
    • Catat semua pesan kesalahan dan penyelesaiannya.
    • Rincian langkah pemecahan masalah yang diambil.
    • Menilai dampak bisnis dari failover.
  3. Area Peningkatan
    • Mengidentifikasi inefisiensi atau hambatan proses.
    • Menyorot kesenjangan dalam komunikasi.
    • Tunjukkan area di mana dokumentasi dapat ditingkatkan.
    • Tangani segala kendala teknis yang ditemui.

Simpan semua dokumentasi di lokasi terpusat yang dapat diakses oleh tim pemulihan bencana untuk referensi di masa mendatang.

Ringkasan

Pengujian failover manual melibatkan perencanaan yang cermat, pemeriksaan menyeluruh, pelaksanaan yang tepat, dan proses pemulihan yang lancar. Berikut adalah rincian fase-fase utama:

  • Perencanaan: Tentukan tujuan, petakan ketergantungan, tetapkan peran, dan atasi risiko potensial.
  • VerifikasiPastikan infrastruktur siap, data tersinkronisasi, jaringan terhubung, dan keamanan terjaga.
  • Eksekusi: Lakukan failover langkah demi langkah, pantau secara real-time, periksa fungsionalitas aplikasi, dan lacak metrik kinerja.
  • PemulihanPulihkan sistem utama, konfirmasikan keakuratan data, pastikan layanan berjalan, dan dokumentasikan seluruh proses.

Untuk meningkatkan pengujian failover Anda:

  • Jadwalkan tes setiap tiga bulan.
  • Selalu perbarui dokumentasi.
  • Putar tanggung jawab tim untuk membangun keahlian.
  • Evaluasi dan perbaiki proses Anda setelah setiap pengujian.

Uji failover yang dijalankan dengan baik memperkuat kemampuan Anda untuk mempertahankan operasi bisnis selama gangguan. Simulasi skenario realistis dalam lingkungan yang terkendali memastikan hasil yang andal tanpa membahayakan sistem produksi Anda.

Artikel Blog Terkait

id_ID