Зв'яжіться з нами

info@serverion.com

Зателефонуйте нам

+1 (302) 380 3902

Етапи ручного тестування відмов

Етапи ручного тестування відмов

Ручне тестування відмов гарантує, що ваші системи можуть перемикатися на резервне копіювання під час збоїв або технічного обслуговування без переривання роботи. Ось короткий огляд процесу:

  • Чому це важливо: перевірте кроки відновлення, підтвердьте наявність резервної копії, навчіть команди та попередьте проблеми в майбутньому.
  • Планування: встановіть цілі (наприклад, час простою менше 15 хвилин), виберіть критичні системи (бази даних, програми) і заплануйте тестування в години непікової навантаження.
  • Підготовка: перевірка готовності системи, синхронізації даних, резервного копіювання та підключення до мережі.
  • виконання: дотримуйтесь покрокового плану відновлення після відмови, відстежуйте журнали та перевіряйте системи резервного копіювання та функціональність програм.
  • Відновлення: повернутися до основної системи після тестування, підтвердити узгодженість даних і задокументувати результати для майбутніх покращень.

Цей процес мінімізує час простою, забезпечує цілісність даних і готує вашу команду до реальних інцидентів. Регулярні тести (кожні три місяці) і вдосконалена документація можуть зробити вашу стратегію відновлення після відмови більш надійною.

Тестування робочого циклу відновлення після відмови

Планування тесту відновлення після відмови

Ретельне планування гарантує мінімальні збої та підтверджує стійкість системи під час ручних тестів відновлення після відмови. Ось як встановити цілі, вибрати системи, запланувати тестування та підготувати документацію.

Постановка цілей тесту

Визначте чіткі цілі для аварійного відновлення, наприклад:

  • Максимальний час простою, дозволений під час відновлення після відмови (цільове значення — менше 15 хвилин)
  • Перевірка узгодженості даних у системах
  • Забезпечення функціональності додатка після відмови
  • Вимірювання продуктивності мережі
  • Підтвердження доступу та автентифікації користувача

Вибір тестових систем

Зосередьтеся на основних системах, зокрема:

  • Первинні сервери баз даних
  • Додатки, орієнтовані на клієнта
  • Внутрішні інструменти для ведення бізнесу
  • Системи автентифікації
  • Інфраструктура базової мережі

Використовуйте карту залежностей, щоб зрозуміти взаємодію системи. Це допоможе вам вирішити, які компоненти потрібно тестувати разом, а які можна окремо.

Розклад тестів і оновлення команди

Плануйте тестування в години непікової навантаження та враховуйте наступне:

  • Технічне обслуговування Windows: узгоджуйте тести із заздалегідь запланованим часом технічного обслуговування.
  • Часові пояси: враховуйте глобальне розташування команди та різні години роботи.
  • Наявність ресурсів: Переконайтеся, що ключові члени команди доступні для всього тесту.
  • Діловий календар: уникайте напружених періодів, як-от обробки наприкінці місяця.

Повідомте зацікавлених сторін про розклад тестування принаймні за два тижні. Додайте такі деталі, як:

  • Передбачуваний час простою системи
  • Можливі перебої в обслуговуванні
  • Контактна інформація для екстрених випадків
  • Процедури відкату

Написання тестового плану

Ретельний план тестування повинен включати:

1. Контрольний список перед відмовами

Перелічіть усі підготовчі кроки, такі як резервне копіювання систем, перевірка синхронізації даних і розподіл ресурсів.

2. Етапи виконання

Опишіть точну послідовність дій для відновлення після відмови. Включіть команди, зміни конфігурації та точки перевірки.

3. Критерії успіху

Визначте показники для вимірювання успіху, наприклад:

  • Час відгуку системи
  • Перевірки цілісності даних
  • Тести працездатності програми
  • Перевірка доступу користувача

4. Процедури відкату

Надайте докладні кроки для повернення до основної системи, якщо виникнуть проблеми. Укажіть умови, які викликають відкат.

Перевірка готовності системи

Перед початком тесту відновлення після збоїв важливо переконатися, що всі ключові компоненти на місці. Це допомагає створити оптимальні умови тестування та зменшує ризик неочікуваних проблем. Зосередьтеся на перегляді конфігурацій системи, перевірці синхронізації даних, забезпеченні справності резервних копій і перевірці підключення до мережі.

Огляд налаштування системи

Почніть із перевірки поточних налаштувань системи:

  • Перевірте розподіл ЦП, пам’яті та сховища.
  • Переконайтеся, що всі необхідні служби запущені.
  • Перевірте дозволи та елементи керування доступом.
  • Ще раз перевірте налаштування безпеки.
  • Переконайтесь засоби моніторингу налаштовані правильно.

Запишіть ці конфігурації, включно з номерами версій, рівнями виправлень і параметрами, щоб ви могли перевірити їх після тесту відновлення після відмови. Ці дії забезпечують підготовку системи до тестування.

Статус синхронізації даних

Після перегляду конфігурацій системи переконайтеся, що синхронізація даних працює належним чином:

  • Вимірювання затримки реплікації.
  • Перевірте узгодженість бази даних.
  • Перевірте синхронізацію файлової системи.
  • Перевірте цілісність даних за допомогою контрольних сум.

Зосередьтеся на індикаторах синхронізації в реальному часі. Для більшості бізнес-додатків затримка реплікації має становити менше 60 секунд. Це гарантує, що дані готові до тесту відновлення після відмови.

Перевірка резервної системи

Ретельно перевірте систему резервного копіювання, щоб переконатися, що вона готова:

Обладнання:

  • Перевірте системи живлення та охолодження.
  • Переконайтеся, що ємність і продуктивність зберігання відповідають вимогам.
  • Перевірте мережеві інтерфейсні карти.
  • Перевірте зайві компоненти.

програмне забезпечення:

  • Оцініть стан операційної системи.
  • Переконайтеся, що залежності програми функціонують.
  • Перевірте інструменти та утиліти резервного копіювання.
  • Перевірте агентів моніторингу.

Контроль доступу:

  • Тестування систем аутентифікації.
  • Перегляньте дозволи користувача.
  • Підтвердьте дійсність сертифікатів безпеки.
  • Перевірте з’єднання VPN.

Ці перевірки гарантують, що система резервного копіювання повністю працездатна та готова до тесту відновлення після відмови.

Перевірка мережі

Оцініть підключення до мережі за такими критеріями:

Тип тесту Критерії прийняття метод
Затримка Менше 50 мс Тести ping
Пропускна здатність Понад 1 Гбіт/с тестування iperf3
Роздільна здатність DNS Менше 100 мс dig/nslookup
Балансувальник навантаження Активний/пасивний статус Перевірки стану здоров'я

Виконайте ці тести з різних сегментів мережі, щоб переконатися, що охоплено всі потенційні шляхи відновлення після відмови. Задокументуйте базові показники продуктивності для порівняння під час і після процесу відновлення після відмови.

Крім того, переконайтеся, що надлишкові мережеві шляхи налаштовані та доступні. Перевірте автоматичне перемикання після відмови для мережевих компонентів, якщо це можливо, і переконайтеся, що всі необхідні порти та протоколи відкриті між основним і резервним сайтами.

Виконання тесту відновлення після відмови

Після завершення перевірки готовності обережно перейдіть до процесу відновлення після відмови, щоб зменшити можливі збої.

Запустити відновлення після відмови

  • Повідомте зацікавлених сторін принаймні за 15 хвилин.
  • Призупиніть усі транзакції та підтвердьте відсутність затримки реплікації.
  • Почніть послідовність відновлення після відмови та запишіть точний час початку.

Уважно стежте за тим, як система спочатку реагує. Процес відновлення після відмови зазвичай займає 30-45 секунд. Якщо це займе більше часу, негайно проведіть дослідження. Щойно процес почнеться, зосередьтеся на моніторингу журналів у реальному часі, щоб виявляти будь-які проблеми, щойно вони виникають.

Перегляньте системні журнали

Моніторинг системних журналів має вирішальне значення для раннього виявлення проблем:

Тип журналу Попереджувальні знаки Критичні сповіщення
застосування Час очікування підключення Збої служби
База даних Помилки реплікації Пошкодження даних
Мережа Втрата пакетів > 1% Збої підключення
Безпека Затримки автентифікації Порушення доступу

Тримайте інтерфейс командного рядка (CLI) відкритим, щоб відстежувати повідомлення в реальному часі. Звертайте особливу увагу на коди помилок, які починаються з «FAIL» або «ERR», оскільки вони часто сигналізують про термінові проблеми, які потребують негайного вирішення.

Перевірте сайт резервного копіювання

Після запуску відновлення після відмови переконайтеся, що сайт резервного копіювання працює належним чином:

1. Доступність послуги

Переконайтеся, що всі основні служби на сайті резервного копіювання мають статус «АКТИВНО» протягом 60 секунд. Зверніть увагу на будь-які затримки для перегляду.

2. Використання ресурсів

Слідкуйте за цими критичними показниками під час переходу:

  • використання ЦП: Має залишатися нижче 80%.
  • Використання пам'яті: Прагніть використовувати менше ніж 75%.
  • Зберігання введення/виведення: тримайте його менше 2000 IOPS.
  • Пропускна здатність мережі: Очікуйте використання на 40-60% нормальних рівнів.

3. Розподіл навантаження

Переконайтеся, що трафік правильно направляється на резервний сайт. Перевірте показники балансувальника навантаження, щоб забезпечити рівномірний розподіл трафіку між доступними ресурсами.

Тестуйте програми та дані

Негайно протестуйте ключові програми та перевірте цілісність даних:

  • Тестування основної програми: Виконуйте базові операції CRUD, перевіряйте автентифікацію користувача, перевіряйте важливі бізнес-процеси та підтверджуйте швидкість реагування API.
  • Перевірка даних: Забезпечте узгодженість бази даних, перевірте цілісність файлової системи, підтвердіть останні транзакції та перевірте швидкість отримання даних.

Зосередьтеся на тестуванні критично важливих програм, перш ніж переходити до вторинних систем. Задокументуйте будь-які порушення, такі як час відгуку, який відхиляється більш ніж на 20% від базових вимірювань.

Тестування після відмови

Після того, як сайт резервного копіювання буде запущено, наступним кроком буде переконатися, що основні бізнес-функції працюють належним чином. Це передбачає ретельну перевірку та перевірку операцій, щоб підтвердити, що все працює належним чином.

Перевірка бізнес-функцій

  • Запустіть повний цикл бізнес-транзакцій, щоб безперебійно підтверджувати робочі процеси та потік даних, включаючи зовнішні інтеграції.
  • Перевірте ключові з’єднання із зовнішніми системами, які не розглядалися під час попереднього тестування програми.
  • Переконайтеся, що всі заплановані завдання виконуються вчасно.
  • Перевірте точність системи звітності, щоб уникнути розбіжностей.

Ці кроки допомагають підтвердити, що середовище резервного копіювання може виконувати критичні операції без перерв. Багаторазове виконання цих перевірок забезпечує стабільну продуктивність і дозволяє швидко вирішувати будь-які проблеми.

Повернутися до основної системи

Переконавшись, що резервна система функціонує належним чином, настав час повернутися до основної системи. Це передбачає скасування попередніх кроків для відновлення нормальної роботи.

Почніть процес повернення

Повідомте всіх відповідних зацікавлених сторін і координуйте дії з технічною групою. Підготуйте контрольний список для відстеження кожного кроку процесу, включаючи синхронізацію бази даних і час перемикання програм.

Переконайтеся, що:

  • Переконайтеся, що всі важливі процеси завершено.
  • Переконайтеся, що не залишилося незавершених транзакцій.
  • Задокументуйте тимчасові правила маршрутизації для посилання під час сторнування.
  • Переконайтеся, що системні операції функціонують належним чином.

Перевірте синхронізацію даних

Забезпечте узгодженість даних між системами, перевіривши:

  • Точне відтворення журналів транзакцій бази даних.
  • Повна синхронізація змін файлової системи.
  • Вирівнювання записів із мітками часу в системах.
  • Видалення тимчасових файлів, які використовуються під час відновлення після відмови.

Використовуйте такі інструменти, як контрольні суми або програмне забезпечення для порівняння, щоб підтвердити, що всі дані, змінені під час відновлення після відмови, збігаються між системами, перш ніж продовжити остаточне перемикання.

Огляньте первинну систему

Проведіть ретельну перевірку працездатності, щоб переконатися, що основна система готова:

  1. Стан інфраструктури: переконайтеся, що всі апаратні компоненти працюють.
  2. Підключення до мережі: Перевірте та підтвердьте правильні конфігурації маршрутизації.
  3. Служби додатків: запускайте служби програми в правильній послідовності.
  4. Системи безпеки: переконайтеся, що всі заходи безпеки активні та функціонують.

Документуйте результати

Після повного відновлення основної системи запишіть результати для вдосконалення майбутніх процесів:

  1. Метрики тесту
    Реєстрація ключових показників, таких як тривалість відновлення після відмови, час синхронізації даних, кількість проблем і порівняння продуктивності.
  2. Випускна документація
    • Зверніть увагу на будь-які повідомлення про помилки та їх вирішення.
    • Детально вжиті кроки з усунення несправностей.
    • Оцініть вплив відмови на бізнес.
  3. Сфери покращення
    • Визначте неефективність процесу або вузькі місця.
    • Підкресліть прогалини в спілкуванні.
    • Вкажіть області, де документація може бути покращена.
    • Вирішіть будь-які технічні обмеження.

Зберігайте всю документацію в централізованому місці, до якого команда аварійного відновлення матиме доступ для подальшого використання.

Резюме

Тестування відновлення після відмови вручну передбачає ретельне планування, ретельні перевірки, точне виконання та плавний процес відновлення. Ось розбивка ключових етапів:

  • Планування: Визначте цілі, відобразіть залежності, призначте ролі та вирішуйте потенційні ризики.
  • Перевірка: Переконайтеся, що інфраструктура готова, дані синхронізовані, мережі підключені та безпека не порушена.
  • виконання: Виконайте покрокове перемикання після відмови, відстежуйте в режимі реального часу, перевіряйте функціональність програми та відстежуйте показники продуктивності.
  • Відновлення: відновіть первинні системи, підтвердьте точність даних, переконайтеся, що служби працюють, і задокументуйте весь процес.

Щоб покращити тестування відмов:

  • Плануйте тестування кожні три місяці.
  • Підтримуйте документацію в актуальному стані.
  • Помінюйте командні обов’язки, щоб набути досвіду.
  • Оцінюйте та вдосконалюйте свій процес після кожного тесту.

Добре виконане тестування відновлення після збою зміцнює вашу здатність підтримувати бізнес-операції під час збоїв. Моделювання реалістичних сценаріїв у контрольованому середовищі забезпечує надійні результати без ризику для ваших виробничих систем.

Пов’язані публікації в блозі

uk