اتصل بنا

info@serverion.com

اتصل بنا

+1 (302) 380 3902

خطوات اختبار الفشل اليدوي

خطوات اختبار الفشل اليدوي

يضمن اختبار التعافي اليدوي من الأعطال إمكانية تحويل أنظمتك إلى النسخ الاحتياطية أثناء انقطاع الخدمة أو الصيانة دون تعطيل العمليات. إليك لمحة عامة سريعة عن العملية:

  • لماذا هذا مهم؟:اختبار خطوات الاسترداد، وتأكيد سعة النسخ الاحتياطي، وتدريب الفرق، ومنع المشكلات المستقبلية.
  • تخطيط:حدد الأهداف (على سبيل المثال، وقت التوقف أقل من 15 دقيقة)، واختر الأنظمة المهمة (قواعد البيانات، والتطبيقات)، وقم بجدولة الاختبارات خلال ساعات الذروة.
  • تحضير:التحقق من جاهزية النظام ومزامنة البيانات والنسخ الاحتياطية والاتصال بالشبكة.
  • تنفيذ:اتبع خطة فشل خطوة بخطوة، وراقب السجلات، وتحقق من صحة أنظمة النسخ الاحتياطي ووظائف التطبيق.
  • استعادة:الرجوع إلى النظام الأساسي بعد الاختبار، وتأكيد اتساق البيانات، وتوثيق النتائج لتحسينات مستقبلية.

تقلل هذه العملية من وقت التوقف عن العمل، وتضمن سلامة البيانات، وتُهيئ فريقك لمواجهة أي حوادث حقيقية. الاختبارات الدورية (كل ثلاثة أشهر) والتوثيق المُحسّن يجعلان استراتيجية التعافي من الأعطال أكثر موثوقية.

اختبار سير عمل التعافي من الفشل

تخطيط اختبار الفشل

يضمن التخطيط الدقيق الحد الأدنى من الانقطاعات ويؤكد مرونة النظام أثناء اختبارات التعافي من الأعطال اليدوية. إليك كيفية تحديد الأهداف، واختيار الأنظمة، وجدولة الاختبار، وإعداد الوثائق.

تحديد أهداف الاختبار

حدد أهدافًا واضحة للتعافي من الكوارث، مثل:

  • الحد الأقصى لوقت التوقف المسموح به أثناء الفشل (الهدف أقل من 15 دقيقة)
  • التحقق من اتساق البيانات عبر الأنظمة
  • ضمان وظائف التطبيق بعد الفشل
  • قياس أداء الشبكة
  • تأكيد وصول المستخدم والمصادقة

اختيار أنظمة الاختبار

التركيز على الأنظمة الأساسية، بما في ذلك:

  • خوادم قواعد البيانات الأساسية
  • التطبيقات الموجهة للعملاء
  • الأدوات الداخلية للعمليات التجارية
  • أنظمة المصادقة
  • البنية التحتية للشبكة الأساسية

استخدم خريطة التبعيات لفهم تفاعلات النظام. يساعدك هذا على تحديد المكونات التي تحتاج إلى اختبارها معًا، وتلك التي يمكن عزلها.

جدول الاختبار وتحديثات الفريق

خطط لإجراء الاختبارات خلال ساعات الذروة وخذ بعين الاعتبار ما يلي:

  • صيانة النوافذ:قم بمحاذاة الاختبارات مع أوقات الصيانة المجدولة مسبقًا.
  • المناطق الزمنية:ضع في اعتبارك مواقع الفريق العالمية وساعات العمل المتنوعة.
  • توفر الموارد:تأكد من توافر أعضاء الفريق الرئيسيين لإجراء الاختبار بأكمله.
  • تقويم الأعمال:تجنب فترات الذروة مثل فترة معالجة نهاية الشهر.

أبلغ الجهات المعنية بجدول الاختبار قبل أسبوعين على الأقل. واذكر تفاصيل مثل:

  • وقت تعطل النظام المتوقع
  • انقطاعات الخدمة المحتملة
  • معلومات الاتصال في حالات الطوارئ
  • إجراءات التراجع

كتابة خطة الاختبار

يجب أن تتضمن خطة الاختبار الشاملة ما يلي:

1. قائمة التحقق قبل الفشل

قم بإدراج جميع الخطوات التحضيرية، مثل نسخ الأنظمة احتياطيًا، والتحقق من مزامنة البيانات، وتخصيص الموارد.

2. خطوات التنفيذ

صف التسلسل الدقيق لإجراءات التعافي من الفشل. تضمّن الأوامر، وتغييرات التكوين، ونقاط التحقق.

3. معايير النجاح

قم بتحديد المقاييس لقياس النجاح، مثل:

  • أوقات استجابة النظام
  • فحوصات سلامة البيانات
  • اختبارات وظائف التطبيق
  • التحقق من صحة وصول المستخدم

4. إجراءات التراجع

قدّم خطوات مفصلة للعودة إلى النظام الأساسي في حال حدوث مشاكل. حدّد الشروط التي قد تُؤدي إلى التراجع.

فحوصات جاهزية النظام

قبل بدء اختبار التعافي من الأعطال، من الضروري التأكد من أن جميع المكونات الرئيسية جاهزة. يساعد هذا على تهيئة ظروف اختبار مثالية ويقلل من خطر حدوث مشاكل غير متوقعة. ركّز على مراجعة تكوينات النظام، والتحقق من مزامنة البيانات، والتأكد من سلامة النسخ الاحتياطية، واختبار اتصال الشبكة.

مراجعة إعداد النظام

ابدأ بالتحقق من إعداد النظام الحالي:

  • تحقق من تخصيصات وحدة المعالجة المركزية والذاكرة والتخزين.
  • تأكد من تشغيل كافة الخدمات الضرورية.
  • التحقق من الأذونات وضوابط الوصول.
  • تأكد من إعدادات الأمان.
  • تأكد أدوات المراقبة تم إعدادها بشكل صحيح.

سجّل هذه التكوينات، بما في ذلك أرقام الإصدارات ومستويات التصحيح والإعدادات، لتتمكن من التحقق منها بعد اختبار التعافي من الفشل. تضمن هذه الخطوات جاهزية النظام للاختبار.

حالة مزامنة البيانات

بعد مراجعة تكوينات النظام، تأكد من أن مزامنة البيانات تعمل كما هو متوقع:

  • قياس تأخر التكرار.
  • التحقق من اتساق قاعدة البيانات.
  • التحقق من مزامنة نظام الملفات.
  • التحقق من سلامة البيانات باستخدام مجموعات التحقق.

ركّز على مؤشرات المزامنة الفورية. في معظم تطبيقات الأعمال، يجب ألا يتجاوز تأخير التكرار 60 ثانية. هذا يضمن جاهزية البيانات لاختبار التعافي من الأعطال.

فحص نظام النسخ الاحتياطي

قم بفحص نظام النسخ الاحتياطي جيدًا للتأكد من جاهزيته:

الأجهزة:

  • التحقق من أنظمة الطاقة والتبريد.
  • تأكد من أن سعة التخزين والأداء تلبي المتطلبات.
  • التحقق من بطاقات واجهة الشبكة.
  • فحص المكونات الزائدة.

برمجة:

  • تقييم صحة نظام التشغيل.
  • تأكد من أن تبعيات التطبيق تعمل.
  • التحقق من أدوات النسخ الاحتياطي والمرافق.
  • التحقق من صحة وكلاء المراقبة.

عناصر التحكم في الوصول:

  • اختبار أنظمة المصادقة.
  • مراجعة أذونات المستخدم.
  • تأكد من صحة شهادات الأمان.
  • التحقق من اتصالات VPN.

تضمن هذه الفحوصات أن نظام النسخ الاحتياطي يعمل بكامل طاقته وجاهز لاختبار الفشل.

فحص الشبكة

قم بتقييم اتصال الشبكة باستخدام المعايير التالية:

نوع الاختبار معايير القبول طريقة
كمون أقل من 50 مللي ثانية اختبارات Ping
عرض النطاق أكثر من 1 جيجابت في الثانية اختبار iperf3
حل DNS أقل من 100 مللي ثانية حفر/بحث
موازن التحميل الحالة النشطة/السلبية فحوصات الصحة

شغّل هذه الاختبارات من قطاعات شبكة مختلفة لضمان تغطية جميع مسارات التعافي من الفشل المحتملة. وثّق مقاييس الأداء الأساسية للمقارنة أثناء عملية التعافي من الفشل وبعدها.

بالإضافة إلى ذلك، تأكد من تكوين مسارات الشبكة الاحتياطية وتوافرها. اختبر التعافي التلقائي من الأعطال لمكونات الشبكة، إن أمكن، وتأكد من فتح جميع المنافذ والبروتوكولات المطلوبة بين الموقعين الرئيسي والاحتياطي.

تشغيل اختبار الفشل

بعد إكمال عمليات التحقق من الجاهزية، انتقل إلى عملية التعافي من الفشل بعناية لتقليل أي انقطاعات محتملة.

بدء الفشل

  • أبلغ أصحاب المصلحة قبل 15 دقيقة على الأقل.
  • قم بإيقاف جميع المعاملات مؤقتًا وتأكد من عدم وجود تأخير في التكرار.
  • ابدأ تسلسل الفشل وسجل وقت البدء الدقيق.

راقب عن كثب كيفية استجابة النظام في البداية. عادةً ما تستغرق عملية التعافي من الفشل 30-45 ثانية. إذا استغرقت وقتًا أطول، فتحقق من المشكلة فورًا. بمجرد بدء العملية، حوّل تركيزك إلى مراقبة السجلات في الوقت الفعلي لتحديد أي مشاكل فور ظهورها.

سجلات نظام المراقبة

إن مراقبة سجلات النظام أمر بالغ الأهمية لاكتشاف المشكلات في وقت مبكر:

نوع السجل علامات التحذير التنبيهات الحرجة
طلب مهلة الاتصال تعطل الخدمة
قاعدة البيانات أخطاء التكرار تلف البيانات
شبكة الاتصال فقدان الحزمة > 1% فشل الاتصال
الأمان تأخيرات المصادقة انتهاكات الوصول

أبقِ واجهة سطر الأوامر (CLI) مفتوحة لتتبع الرسائل الفورية. انتبه جيدًا لرموز الأخطاء التي تبدأ بـ "FAIL" أو "ERR"، لأنها غالبًا ما تُشير إلى مشاكل عاجلة تتطلب معالجة فورية.

التحقق من موقع النسخ الاحتياطي

بعد بدء عملية الفشل، تأكد من أن موقع النسخ الاحتياطي يعمل بشكل صحيح:

1. توفر الخدمة

تأكد من أن جميع الخدمات الأساسية على موقع النسخ الاحتياطي تُظهر حالة "نشطة" خلال 60 ثانية. سجّل أي تأخير للمراجعة.

2. استغلال الموارد

راقب هذه المقاييس المهمة أثناء عملية الانتقال:

  • استخدام وحدة المعالجة المركزية:يجب أن يبقى أقل من 80%.
  • استخدام الذاكرة:استهدف استخدام أقل من 75%.
  • تخزين الإدخال/الإخراج:احتفظ به تحت 2000 IOPS.
  • معدل نقل الشبكة:توقع الاستخدام عند 40-60% من المستويات العادية.

3. توزيع الحمل

تأكد من توجيه حركة البيانات بشكل صحيح إلى موقع النسخ الاحتياطي. تحقق من مقاييس مُوازن التحميل لضمان توزيع حركة البيانات بالتساوي على الموارد المتاحة.

اختبار التطبيقات والبيانات

اختبار التطبيقات الرئيسية على الفور والتحقق من سلامة البيانات:

  • اختبار التطبيقات الأساسية:تنفيذ عمليات CRUD الأساسية، واختبار مصادقة المستخدم، والتحقق من سير العمل التجارية الهامة، والتأكد من استجابة واجهة برمجة التطبيقات.
  • التحقق من صحة البيانات:تأكد من اتساق قاعدة البيانات، والتحقق من سلامة نظام الملفات، وتأكيد المعاملات الأخيرة، واختبار سرعات استرجاع البيانات.

ركّز على اختبار التطبيقات المهمة أولًا قبل الانتقال إلى الأنظمة الثانوية. وثّق أي مخالفات، مثل أوقات الاستجابة التي تنحرف بأكثر من 20% عن القياسات الأساسية.

الاختبار بعد الفشل

بعد تشغيل موقع النسخ الاحتياطي، تأتي الخطوة التالية وهي التأكد من عمل وظائف العمل الأساسية بشكل صحيح. يتضمن ذلك فحص العمليات والتحقق منها بدقة للتأكد من سير كل شيء كما ينبغي.

فحص وظيفة الأعمال

  • قم بتشغيل دورة معاملات تجارية كاملة لتأكيد سير العمل وتدفق البيانات بسلاسة، بما في ذلك التكاملات الخارجية.
  • اختبار الاتصالات الرئيسية مع الأنظمة الخارجية التي لم يتم تغطيتها أثناء اختبار التطبيق السابق.
  • تأكد من تنفيذ جميع المهام المجدولة في الوقت المحدد.
  • التحقق من دقة نظام الإبلاغ لتجنب أي تناقضات.

تساعد هذه الخطوات على التأكد من قدرة بيئة النسخ الاحتياطي على معالجة العمليات الحرجة دون انقطاع. يضمن إجراء عمليات التحقق هذه عدة مرات أداءً ثابتًا ويتيح لك معالجة أي مشاكل بسرعة.

العودة إلى النظام الرئيسي

بعد التأكد من عمل نظام النسخ الاحتياطي بشكل صحيح، حان وقت العودة إلى النظام الأساسي. يتضمن ذلك عكس الخطوات السابقة لاستعادة العمليات الطبيعية.

ابدأ عملية الإرجاع

أخطر جميع الجهات المعنية ونسّق مع الفريق الفني. أعدّ قائمة مرجعية لتتبع كل خطوة من خطوات العملية، بما في ذلك مزامنة قاعدة البيانات وتوقيت انتقال التطبيقات.

تأكد من:

  • تأكد من اكتمال جميع العمليات الحرجة.
  • تأكد من عدم وجود أي معاملات معلقة.
  • توثيق قواعد التوجيه المؤقتة للرجوع إليها أثناء التراجع.
  • تأكد من أن عمليات النظام تعمل كما هو متوقع.

التحقق من مزامنة البيانات

تأكد من اتساق البيانات بين الأنظمة عن طريق التحقق من:

  • إعادة تشغيل دقيقة لسجلات معاملات قاعدة البيانات.
  • المزامنة الكاملة لتغييرات نظام الملفات.
  • محاذاة السجلات المختومة بالوقت عبر الأنظمة.
  • إزالة الملفات المؤقتة المستخدمة أثناء الفشل.

استخدم أدوات مثل اختبارات المجموع الاختباري أو برامج المقارنة للتأكد من أن جميع البيانات المعدلة أثناء عملية الفشل تتطابق بين الأنظمة قبل المتابعة بالتبديل النهائي.

فحص النظام الأساسي

قم بإجراء فحص صحي شامل للتأكد من جاهزية النظام الأساسي:

  1. حالة البنية التحتية:تأكد من أن جميع مكونات الأجهزة تعمل بشكل جيد.
  2. الاتصال بالشبكة:تحقق من تكوينات التوجيه الصحيحة وتأكد منها.
  3. خدمات التطبيقات:ابدأ خدمات التطبيق بالتسلسل الصحيح.
  4. أنظمة الأمن:التأكد من أن كافة التدابير الأمنية نشطة وفعّالة.

توثيق النتائج

بمجرد استعادة النظام الأساسي بالكامل، قم بتسجيل النتائج لتحسين العمليات المستقبلية:

  1. مقاييس الاختبار
    سجل المقاييس الرئيسية مثل مدة الفشل، ووقت مزامنة البيانات، وعدد المشكلات، ومقارنات الأداء.
  2. توثيق المشكلة
    • لاحظ أي رسائل خطأ وحلولها.
    • تفاصيل خطوات استكشاف الأخطاء وإصلاحها المتخذة.
    • تقييم التأثير التجاري للفشل.
  3. مجالات التحسين
    • تحديد عدم كفاءة العملية أو الاختناقات.
    • تسليط الضوء على الثغرات في التواصل.
    • أشر إلى المجالات التي يمكن فيها تحسين التوثيق.
    • معالجة أي قيود فنية واجهتها.

قم بتخزين كافة المستندات في موقع مركزي يمكن لفريق التعافي من الكوارث الوصول إليه للرجوع إليه في المستقبل.

ملخص

يتضمن اختبار التعافي اليدوي من الأعطال تخطيطًا دقيقًا، وفحوصات شاملة، وتنفيذًا دقيقًا، وعملية استرداد سلسة. فيما يلي تفصيل للمراحل الرئيسية:

  • تخطيط:تحديد الأهداف، ورسم خريطة التبعيات، وتعيين الأدوار، ومعالجة المخاطر المحتملة.
  • تَحَقّق:تأكد من أن البنية التحتية جاهزة، والبيانات متزامنة، والشبكات متصلة، والأمان سليم.
  • تنفيذ:تنفيذ عملية التعافي من الفشل خطوة بخطوة، والمراقبة في الوقت الفعلي، والتحقق من وظائف التطبيق، وتتبع مقاييس الأداء.
  • استعادة:استعادة الأنظمة الأساسية، والتأكد من دقة البيانات، والتأكد من تشغيل الخدمات، وتوثيق العملية بأكملها.

لتحسين اختبار الفشل الخاص بك:

  • جدول الاختبارات كل ثلاثة أشهر.
  • حافظ على تحديث الوثائق.
  • تدوير مسؤوليات الفريق لبناء الخبرة.
  • قم بتقييم وتحسين عمليتك بعد كل اختبار.

يُعزز اختبار التعافي من الأعطال المُنفَّذ جيدًا قدرتك على الحفاظ على سير العمل أثناء الانقطاعات. كما تضمن محاكاة سيناريوهات واقعية في بيئة مُتحكَّم فيها نتائج موثوقة دون تعريض أنظمة الإنتاج الخاصة بك للخطر.

منشورات المدونة ذات الصلة

ar