Contáctenos

info@serverion.com

Métricas principales para la monitorización de copias de seguridad en múltiples nubes

Métricas principales para la monitorización de copias de seguridad en múltiples nubes

¿Quieres copias de seguridad fiables? Empieza a monitorizar las métricas correctas. La monitorización de copias de seguridad multinube simplifica la protección de datos al consolidar todo en un solo lugar. Pero la verdadera clave reside en centrarse en métricas clave que garantizan la fiabilidad de las copias de seguridad, la rapidez de la recuperación y el control de los costes.

Esto es lo que hay que vigilar:

  • Objetivo de tiempo de recuperación (RTO): ¿Cuánto tiempo pueden permanecer inactivos los sistemas antes de que esto afecte al negocio?
  • Objetivo de punto de recuperación (RPO): ¿Cuánta pérdida de datos es aceptable?
  • Tasa de éxito de las copias de seguridad: ¿Las copias de seguridad se están completando según lo previsto?
  • Velocidades de transferencia de datos: ¿Qué tan rápido pueden moverse los datos durante las copias de seguridad?
  • Utilización del almacenamiento: ¿Su almacenamiento está llegando a su límite?
  • Comprobaciones de integridad de datos: ¿Sus datos de respaldo son precisos y no están dañados?
  • Tiempo de respuesta a incidentes: ¿Qué tan rápido se pueden resolver los fallos?
  • Recuento de recursos protegidos: ¿Están cubiertos todos los sistemas críticos?
  • Consumo de almacenamiento de Backup Vault: ¿Está gestionando eficazmente los costos de almacenamiento?
  • Registros de acceso y pistas de auditoría: ¿Quién accedió a sus copias de seguridad y cuándo?

El seguimiento de estas métricas ayuda a prevenir tiempos de inactividad, pérdida de datos y gastos excesivos. Además, garantiza que su sistema de copias de seguridad se ajuste a las necesidades de la empresa y a los requisitos de cumplimiento normativo.

Sesión de demostración de "Pregunte a un experto": Masterclass sobre monitorización de backups en la nube híbrida de Veeam ONE | Seminario web

Veeam ONE

1. Objetivo de tiempo de recuperación (RTO)

El Objetivo de Tiempo de Recuperación (RTO) define cuánto tiempo pueden permanecer inactivos sus sistemas tras una falla antes de que esta empiece a afectar a su negocio. En pocas palabras, es el tiempo máximo de inactividad que puede permitirse antes de que todo vuelva a estar completamente operativo. Kari Rivas, gerente sénior de marketing de productos de Backblaze, lo explica así:

""La recuperación significa que los sistemas vuelven a estar en funcionamiento, completamente funcionales, y los usuarios (empleados, clientes, etc.) pueden utilizarlos de la misma manera que antes de que ocurriera el incidente de datos"."

Obtener un RTO correcto es crucial porque vincula sus planes de recuperación técnica directamente con sus prioridades comerciales.

El coste del tiempo de inactividad suele determinar los objetivos de RTO. Por ejemplo, las empresas de operaciones financieras suelen aspirar a un RTO cercano a cero, ya que incluso unos pocos minutos sin conexión pueden costar millones. Por otro lado, los sistemas menos críticos, como los archivos internos, pueden soportar días de inactividad sin mayores consecuencias.

Utilice un enfoque escalonado para los RTO: Asigne RTO ajustados a las aplicaciones críticas y permita mayor flexibilidad para los sistemas menos esenciales. Esta estrategia mantiene los costos de recuperación bajo control, a la vez que garantiza la protección de sus operaciones más importantes. Colabore con los líderes de departamento para estimar el impacto financiero del tiempo de inactividad en cada sistema; esto convierte el RTO en una métrica orientada al negocio, en lugar de solo una métrica técnica.

Pruebe periódicamente su "RTR" durante simulacros o incidentes reales. Si su RTR falla constantemente, es señal de que su sistema de copias de seguridad necesita una actualización. Por ejemplo, las copias de seguridad en cinta son notoriamente lentas porque requieren recuperación y carga físicas. En cambio, el almacenamiento en la nube ofrece acceso instantáneo, lo que puede acelerar drásticamente los tiempos de recuperación. Los simulacros y ejercicios prácticos son excelentes herramientas para garantizar que sus objetivos de RTO sean realistas y alcanzables.

2. Objetivo de punto de recuperación (RPO)

Mientras que el RTO se centra en el tiempo de inactividad aceptable, el RPO se centra en la cantidad de pérdida de datos que se puede tolerar. En esencia, el RPO mide la antigüedad de los datos que se recuperarían de la última copia de seguridad. Por ejemplo, si el RPO es de una hora, se reconoce que podrían perderse hasta 60 minutos de datos en un incidente. Esta métrica es crucial en configuraciones multicloud, donde un seguimiento preciso es esencial para alinear los esfuerzos de recuperación con las prioridades del negocio.

El RPO influye directamente en la frecuencia con la que se deben realizar las copias de seguridad. Un RPO de una hora significa que las copias de seguridad deben ejecutarse al menos cada hora. Para sistemas críticos, como pasarelas de pago o historiales clínicos, el RPO debe ser lo más cercano posible a cero. Por otro lado, datos menos cruciales, como análisis de marketing u órdenes de compra archivadas, pueden gestionar RPO de 13 a 24 horas sin causar interrupciones importantes.

Aquí hay una estadística impactante: más del 72% de empresas no alcanzan sus objetivos de recuperación[1]. A menudo, esto sucede porque las decisiones de RPO se consideran puramente técnicas en lugar de estratégicas. Kari Rivas, gerente sénior de marketing de producto de Backblaze, lo destaca:

"La decisión sobre qué estándar cumplir es una responsabilidad compartida. Y esos estándares… son los objetivos que los equipos de TI y proveedores de infraestructura deben alcanzar."

Descubrir cuánto le cuesta a su empresa un minuto de inactividad puede brindarle claridad para establecer objetivos de RPO realistas.

En entornos de múltiples nubes, donde el rendimiento puede variar según los proveedores y las regiones, es importante controlar su Punto de recuperación real (RPA) La pérdida de datos durante los incidentes es crucial. Si su RPA falla constantemente, es momento de aumentar la frecuencia de las copias de seguridad o invertir en una mejor infraestructura. Las copias de seguridad automatizadas y de alta frecuencia suelen ser la única manera de cumplir con objetivos de punto de recuperación (RPO) estrictos, ya que los métodos manuales simplemente no dan abasto.

Para lograr un equilibrio entre costo y protección, asigne RPO más estrictos a sistemas críticos, como la autenticación de clientes, y menos estrictos a datos no críticos, como el inventario interno. Este enfoque escalonado le garantiza proteger lo más importante sin gastar recursos innecesarios.

3. Tasa de éxito de las copias de seguridad

La tasa de éxito de las copias de seguridad refleja el porcentaje de trabajos de copia de seguridad completados en comparación con los que fallaron o se omitieron. Considérelo como un informe de rendimiento de su sistema de copias de seguridad. Una tasa de éxito alta indica que su plan de protección de datos va por buen camino, mientras que una disminución en esta métrica podría interrumpir las operaciones comerciales, especialmente en momentos críticos.

Mantener una alta tasa de éxito en las copias de seguridad es crucial; después de todo, no se pueden restaurar datos que nunca se respaldaron. En configuraciones multicloud, controlar esta métrica puede ser complicado debido a la necesidad de consolidar datos de diferentes proveedores. Por ejemplo, AWS Backup actualiza CloudWatch cada 5 minutos con el recuento de trabajos, mientras que Google Cloud actualiza sus métricas de copia de seguridad cada hora. La combinación de estas actualizaciones proporciona una visión más clara del rendimiento general de las copias de seguridad.

Varios factores pueden provocar fallos en las copias de seguridad. Entre ellos se incluyen conflictos de programación con ventanas de mantenimiento (como las de Amazon FSx o servicios de base de datos), falta de espacio de almacenamiento o problemas de red que provoquen la interrupción de transferencias entre... proveedores de nube. Para anticiparse a estos problemas, configure alertas automáticas cuando los fallos superen los cinco trabajos en una hora. Generar informes de tendencias durante 30 días o más puede ayudar a detectar problemas recurrentes en lugar de problemas puntuales.

Si los fallos persisten, considere ajustar su enfoque. Cambiar a copias de seguridad incrementales permanentes o a la Protección Continua de Datos (CDP) puede reducir el volumen de datos transferidos, aliviando así la carga de su sistema. Tenga en cuenta que AWS marca los trabajos como "EXPIRADOS" si no se inician dentro del plazo programado, lo que afecta su tasa de éxito incluso si no se produce ningún error técnico. Revisar y ajustar periódicamente los programas de copias de seguridad puede ayudar a prevenir conflictos de recursos durante las horas punta. Ajustar estos procesos garantiza la fiabilidad de sus copias de seguridad mientras controla otras métricas críticas.

4. Velocidades de transferencia de datos

Las velocidades de transferencia de datos determinan la rapidez con la que los datos de respaldo se mueven de un punto a otro, lo que afecta directamente el tiempo que tardan en completarse las copias de seguridad. ancho de banda se refiere a la capacidad total de su conexión de red, rendimiento Mide la velocidad real de carga o descarga de datos. Como explica Kari Rivas, gerente sénior de marketing de productos de Backblaze:

""El rendimiento es a menudo la medida más importante para los clientes de copias de seguridad y archivo porque es un indicador de las velocidades de carga y descarga que experimentará el usuario final"."

Cuando el rendimiento es insuficiente, puede interrumpir los programas de copias de seguridad y reducir el rendimiento del sistema. Las velocidades de transferencia lentas implican que las copias de seguridad tardan más, lo que podría extenderse a las horas de producción. De ahí el concepto de... ventana de respaldo se vuelve crucial: se reserva un plazo específico para que las copias de seguridad se ejecuten sin interferir con las operaciones diarias. Si su rendimiento no puede gestionar la carga de datos dentro de este plazo, tendrá problemas. W. Curtis Preston, colaborador de Network World, destaca los riesgos:

"Cada sistema de almacenamiento tiene la capacidad de aceptar un cierto volumen de copias de seguridad por día. Si no se supervisa esto, las copias de seguridad pueden tardar cada vez más y extenderse a toda la jornada laboral."

Estar atento a las tasas de transferencia es esencial para identificar cuellos de botella de la red Antes de que provoquen problemas mayores. Las velocidades bajas persistentes podrían indicar congestión de la red, limitaciones de hardware o incluso una limitación por parte de su proveedor. Esté atento a las colas crecientes: estas son señales de que su sistema tiene dificultades para mantener el flujo de datos.

Mejorar las velocidades de transferencia suele requerir un ajuste preciso de la configuración. El multihilo es una forma de optimizar el rendimiento al transmitir múltiples flujos de datos simultáneamente, optimizando el ancho de banda disponible. Ajustar el tamaño de los bloques o partes también puede ser útil; las partes más grandes reducen la sobrecarga causada por las frecuentes llamadas a la API, aunque requieren más memoria. Para las organizaciones que tienen plazos de copia de seguridad ajustados, cambiar a copias de seguridad incrementales permanentes o a la Protección Continua de Datos (CDP) puede ser una solución revolucionaria. Estos métodos minimizan la cantidad de datos transferidos, lo que reduce la carga en la red.

5. Utilización del almacenamiento

El uso del almacenamiento juega un papel fundamental en la eficiencia de las copias de seguridad, junto con las tasas de transferencia. Controlar el uso de almacenamiento de los distintos proveedores de nube puede ayudarte a controlar los costes y evitar el sobreaprovisionamiento. Monitorear regularmente el espacio de copia de seguridad te permite detectar tendencias y ajustar la capacidad antes de alcanzar los límites. Por ejemplo, los informes de uso de copias de seguridad de Google Cloud utilizan una regresión lineal basada en datos históricos para predecir las necesidades futuras de almacenamiento, lo que permite a los administradores saber cuándo ampliar la capacidad. Además, evaluar cómo la deduplicación y la eliminación oportuna influyen en la eficiencia del almacenamiento puede tener un impacto significativo tanto en el rendimiento como en el coste.

Una buena manera de evaluar la eficiencia de la deduplicación y la compresión es comparar la Tamaño virtual a Bytes almacenados. Si estos números son casi idénticos, podría indicar que la deduplicación no funciona con la eficacia esperada. Herramientas como AWS Backup proporcionan métricas de almacenamiento actualizadas en CloudWatch cada cinco minutos, mientras que Google Cloud actualiza los datos de almacenamiento de la bóveda de respaldo cada hora, lo que garantiza actualizaciones frecuentes sobre el estado de su almacenamiento.

No eliminar los puntos de recuperación caducados puede generar cargos innecesarios. Como explica W. Curtis Preston, reconocido especialista en copias de seguridad y recuperación:

"La única forma de crear capacidad adicional sin comprar más es eliminar las copias de seguridad antiguas. Sería una lástima que, al no supervisar la capacidad de su sistema de almacenamiento, no pudiera cumplir con los requisitos de retención establecidos por su empresa."

Monitorear el crecimiento del almacenamiento, tanto a nivel de aplicación como de host, puede identificar qué recursos impulsan los costos. Por ejemplo, podría descubrir que una sola base de datos monopoliza el almacenamiento de copias de seguridad, mientras que otras aplicaciones apenas contribuyen. Esta información detallada le ayuda a enfocar los esfuerzos de optimización donde más importan. Configurar alertas de umbral (normalmente alrededor de la capacidad de 80%) también le da tiempo suficiente para actuar antes de alcanzar niveles críticos.

Por último, comprender las métricas de facturación específicas del proveedor es crucial para evitar sorpresas. Por ejemplo, AWS Neptune... Almacenamiento de respaldo total facturado La métrica incluye almacenamiento continuo y de instantáneas, con una cuota diaria gratuita. Google Cloud te permite filtrar las métricas por tipo de recurso. Conocer estos detalles te garantiza usar los niveles de almacenamiento adecuados y controlar tus costos.

6. Verificaciones de integridad de datos

Las comprobaciones de integridad de datos son esenciales para garantizar que los datos respaldados se mantengan precisos e intactos durante todo su ciclo de vida. Estas comprobaciones se basan en técnicas como sumas de comprobación y validación de hash para confirmar que los archivos permanecen intactos durante la transferencia, el almacenamiento y la recuperación, incluso cuando se trabaja con múltiples proveedores de nube.

Al basarse en métricas de respaldo esenciales, las comprobaciones de integridad ayudan a garantizar la seguridad de sus datos, incluso al transferirse entre diferentes entornos de nube. Por ejemplo, la transferencia de datos entre proveedores o el traslado de un almacenamiento en caliente a uno en frío podrían presentar daños que los registros de respaldo estándar podrían pasar por alto. Los puntos de recuperación parciales (copias de seguridad iniciadas pero nunca completadas) representan otro riesgo, ya que podrían dejar archivos incompletos o dañados durante la recuperación.

Las plataformas de nube modernas ofrecen herramientas para supervisar la integridad de los datos casi en tiempo real. Por ejemplo, Copia de seguridad de AWS Actualiza las métricas en CloudWatch cada cinco minutos, lo que permite identificar y abordar rápidamente posibles problemas. Algunas plataformas incluso diferencian entre estados como "Completado" y "Completado con problemas", lo que indica cuándo se requiere una inspección más detallada. Por otro lado, Almacenamiento de objetos de Oracle Cloud Infrastructure Adopta un enfoque proactivo al reparar automáticamente los datos dañados mediante redundancia. Para validar plenamente la monitorización de la integridad, es fundamental realizar pruebas de restauración reales.

Las pruebas de restauración programadas también ayudan a medir La realidad del tiempo de recuperación (RTR) y Realidad del punto de recuperación (RPR) Indicadores clave del rendimiento de su sistema de copias de seguridad en comparación con sus objetivos de recuperación. Estas pruebas ofrecen información sobre la eficacia real de su estrategia de copias de seguridad.

Para mayor protección, implementar almacenamiento inmutable utilizando tecnologías de escritura única, lectura múltiple (WORM), como Bloqueo de objetos de Amazon S3, puede evitar que los datos se alteren después de su escritura. Esto es especialmente valioso para protegerse contra ataques de ransomware. Sin embargo, es importante analizar los datos en busca de malware o corrupción antes de bloquearlos para evitar que los errores se conserven permanentemente. Seguimiento de... Puntuación de calidad de los datos, que consolida métricas como consistencia, integridad y precisión, también puede ofrecer una instantánea clara del estado general de sus datos de respaldo en todos los entornos de nube.

7. Tiempo de respuesta ante incidentes

El tiempo de respuesta a incidentes mide el tiempo transcurrido entre la detección de una falla y su resolución. Se desglosa en dos submétricas clave: Tiempo medio de reconocimiento (MTTA), que mide la rapidez con la que su equipo responde a las alertas, y Tiempo medio de recuperación (MTTR), que mide el tiempo necesario para restablecer las operaciones normales. Estas métricas se complementan con otros indicadores de rendimiento mencionados anteriormente.

"Cuando falla la copia de seguridad inicial, existe una alta probabilidad de que otras tareas posteriores también fallen. En tal escenario, la mejor manera de comprender el curso de los eventos es mediante la monitorización y las notificaciones. – Guía prescriptiva de AWS

Es fundamental definir criterios de respuesta claros según la gravedad del incidente. Las organizaciones suelen alinear sus Objetivos de Nivel de Servicio (SLO) con los niveles de prioridad para garantizar una gestión eficiente de los incidentes:

  • P1 (Crítico):Reconocer en 5 minutos, recuperar en 4 horas
  • P2 (Alto):Reconocer en 15 minutos, recuperar en 12 horas
  • P3 (Medio):Reconocer en 1 hora, recuperar en 24 horas

Los sistemas de alerta sólidos son la base de una respuesta eficaz ante incidentes. Al integrar la monitorización de copias de seguridad con herramientas como Amazon CloudWatch o Google Cloud Monitoring, puede configurar notificaciones en tiempo real a través de servicios como Amazon SNS. Por ejemplo, configure alarmas para que activen un ticket de alta prioridad si fallan más de cinco trabajos de copia de seguridad en una hora.

"Cuando el MTTA es bajo, significa que tus alertas llegan a las personas adecuadas rápidamente. Cuando es alto, suele indicar fatiga de alertas, sobrecarga de notificaciones o responsabilidades poco claras. – Wiz

La automatización desempeña un papel fundamental para alcanzar estos objetivos. Herramientas como Amazon EventBridge pueden automatizar los procesos de escalamiento, garantizando la creación rápida de tickets y un seguimiento consistente del MTTA. Para mantener la precisión, es fundamental definir claramente qué significa "reconocido" en su entorno multicloud, garantizando así que todos estén en sintonía con las métricas procesables.

8. Los recursos protegidos cuentan

El recuento de recursos protegidos mide la cantidad de máquinas virtuales, bases de datos, sistemas de archivos y otros componentes de infraestructura protegidos por su servicio de respaldo. Es una métrica clave para evaluar la cobertura de su sistema de respaldo en su entorno multicloud. Un recuento preciso es crucial para garantizar una gobernanza de datos adecuada, especialmente dado que la adopción de la multicloud ha superado los 90% tanto en el sector privado como en el público. El seguimiento de estos activos protegidos es ahora un pilar fundamental del cumplimiento normativo y la gobernanza en entornos de nube.

El valor real de esta métrica se hace evidente al compararla con el inventario total de su infraestructura. Muchas plataformas en la nube ofrecen herramientas para contabilizar los activos protegidos, lo que permite identificar cualquier brecha en la cobertura. Al comparar este recuento con todo su inventario, puede identificar rápidamente los recursos que podrían estar desprotegidos.

Para mantenerse a la vanguardia, las herramientas de detección automatizada son esenciales. En entornos dinámicos de nube, se añaden nuevos recursos constantemente y, sin análisis automatizados, algunos recursos, a menudo denominados recursos "de sombra", pueden eludir las políticas de copia de seguridad. Por ejemplo, la hoja "Recursos protegibles" de Azure resalta los activos que aún no tienen copia de seguridad, lo que facilita la solución inmediata de estas deficiencias.

Configurar alertas puede mejorar aún más su supervisión. Por ejemplo, puede configurar CloudWatch o Google Cloud Monitoring para que envíen notificaciones si el porcentaje de activos protegidos cae por debajo de un umbral, como 95% de su inventario total. Este enfoque proactivo le ayuda a detectar posibles vulnerabilidades antes de que provoquen la pérdida de datos. Además, etiquetar recursos con etiquetas como "BackupTier: Gold" o "BackupTier: Silver" puede agilizar la aplicación de políticas y simplificar el seguimiento entre diferentes equipos o departamentos.

Los paneles centralizados son otra herramienta fundamental para mantener la visibilidad en entornos multicloud. AWS Backup, por ejemplo, actualiza las métricas en CloudWatch cada 5 minutos, mientras que Google Cloud proporciona actualizaciones cada hora sobre el uso del almacenamiento. Al utilizar plataformas que normalizan los formatos de datos, como las que incorporan JSON o syslog, puede garantizar la coherencia de los informes entre los distintos proveedores de la nube. Las auditorías periódicas de las API de infraestructura verifican además que todos los recursos estén cubiertos, lo que le ayuda a mantener el cumplimiento normativo y a evitar deficiencias en la protección.

9. Consumo de almacenamiento de la bóveda de respaldo

Monitorear el uso del almacenamiento de la bóveda de respaldo es crucial para administrar los costos y planificar la capacidad de manera eficaz. Una de las métricas clave que se deben monitorear es... volumen de datos almacenados (Medido en GiB o TB). Esta métrica revela cuánto espacio está ocupado, lo que le ayuda a evitar alcanzar los límites de capacidad o problemas de facturación inesperados.

Otra métrica importante es utilización del pool de almacenamiento, que muestra el porcentaje de espacio utilizado frente al disponible en su sistema de copias de seguridad. Si el uso empieza a acercarse a los umbrales predefinidos, es momento de ampliar la capacidad o eliminar las copias de seguridad obsoletas. Por ejemplo, AWS Backup actualiza estas métricas cada 5 minutos mediante CloudWatch, mientras que Google Cloud actualiza los valores cada hora y repite los datos más recientes cada 5 minutos.

También es esencial realizar un seguimiento días mínimos de retención Para garantizar que los datos se conserven durante el período requerido. Además, el seguimiento de las marcas de tiempo de la primera y la última restauración puede ayudar a validar el ciclo de vida de las copias de seguridad y confirmar el cumplimiento de la normativa.

Un factor potencial de costos es puntos de recuperación caducados que no se pueden eliminar. AWS Backup proporciona la métrica Número de puntos de recuperación vencidos, que identifica las copias de seguridad que deberían haberse eliminado, pero que aún ocupan espacio. Esto puede generar mayores costos de almacenamiento. De igual forma, Número de puntos de recuperación en frío Esta métrica ayuda a confirmar que los datos más antiguos se están transfiriendo a niveles de archivo de menor costo, según lo previsto. Si bien el almacenamiento de archivos es más económico, cabe destacar que los costos de recuperación de estos datos pueden ser mayores.

Para mantenerse a la vanguardia, establezca alertas de umbral Para una gestión proactiva. Su sistema de monitorización debería notificarle cuando el uso del almacenamiento supere los límites establecidos o cuando el número de puntos de recuperación caducados comience a aumentar. También es útil segmentar las métricas de consumo por tipo de recurso, como instancias de Compute Engine, bases de datos SQL o sistemas Oracle. De esta forma, puede identificar qué cargas de trabajo impulsan el crecimiento del almacenamiento y ajustar las políticas de retención en consecuencia.

Para aquellos que utilizan Servion‘Soluciones de respaldo multi-nube de (Servion), la integración de estas estrategias de monitoreo puede mejorar tanto el rendimiento como la rentabilidad. Estas prácticas sientan las bases para profundizar en métricas operativas más detalladas en las siguientes secciones.

10. Registros de acceso y pistas de auditoría

Cada acción relacionada con su infraestructura de respaldo, ya sea restaurar datos, cambiar una política o incluso simplemente leer información, debe registrarse meticulosamente. Los registros de acceso y las pistas de auditoría proporcionan un registro detallado de quién accedió a qué, cuándo y desde dónde. Este nivel de transparencia es fundamental tanto para las investigaciones de seguridad como para el cumplimiento de los requisitos normativos.

Los registros de auditoría deben capturar todos los detalles esenciales de cada evento. Esto incluye el usuario o el rol de IAM involucrado, el tipo de acción realizada (p. ej., RestoreBackup, DeleteBackup, CreateBackupPlan), la dirección IP de origen, el recurso afectado, la marca de tiempo y el resultado de la acción. Para procesos de larga duración, Google Cloud Backup y DR genera dos entradas de registro independientes: una al iniciar la operación y otra al finalizarla.

Las plataformas en la nube generalmente separan los registros en dos categorías: Registros de actividad del administrador para cambios de configuración y Registros de acceso a datos Para operaciones que involucran datos confidenciales. Los registros de actividad de administrador suelen estar habilitados de forma predeterminada, pero los registros de acceso a datos suelen requerir activación manual. En Google Cloud, por ejemplo, los registros de acceso a datos están deshabilitados de forma predeterminada (excepto en BigQuery) debido a su tamaño. Sin embargo, habilitar estos registros es crucial para rastrear quién accede o restaura datos confidenciales, lo que garantiza el cumplimiento de las normativas de privacidad.

Para reforzar la supervisión, configure alertas en tiempo real para acciones críticas como DeleteBackup. Además, dirija los registros a soluciones de almacenamiento centralizadas para cumplir con los requisitos de retención, que pueden variar desde 30 días hasta 10 años, según los estándares de cumplimiento. Las opciones de almacenamiento centralizado incluyen plataformas como Azure Log Analytics o Cloud Storage.

Para entornos multicloud, herramientas como Servion Puede simplificar la gestión de registros. Al consolidar los registros de AWS CloudTrail, los registros de actividad de Azure y los registros de auditoría de Google Cloud en un único sistema SIEM, puede lograr una visibilidad unificada de toda su infraestructura de backup. Este enfoque no solo optimiza la monitorización, sino que también mejora su capacidad para mantener el cumplimiento normativo en todas las plataformas.

Tabla comparativa

Las 10 principales métricas de copias de seguridad multinube: categorías, mediciones y umbrales de alerta

Las 10 principales métricas de copias de seguridad multinube: categorías, mediciones y umbrales de alerta

Para facilitar el seguimiento, esta tabla organiza las métricas clave de respaldo en tres categorías: rendimiento, seguridad/estado y capacidad. Agrupar las métricas de esta manera ayuda a identificar posibles problemas y proporciona una hoja de ruta clara para abordarlos. A continuación, encontrará nueve métricas esenciales, cada una con su propósito, cómo se mide y el umbral de alerta que indica que algo requiere atención.

Métricas de rendimiento Se centran en la rapidez con la que se realizan las copias de seguridad y las recuperaciones. Responden a preguntas como: ¿Se completan las copias de seguridad a tiempo? ¿Se pueden restaurar los datos con la suficiente rapidez durante una crisis? Por ejemplo, si su objetivo de tiempo de recuperación (RTO) está establecido en 4 horas, pero su tiempo de recuperación real (RTR) alcanza regularmente las 6 horas, es una clara señal de que su sistema podría necesitar una revisión.

Métricas de seguridad y salud Supervise el correcto funcionamiento de sus copias de seguridad y asegúrese de que sus datos permanezcan intactos. Por ejemplo, si su tasa de éxito de copias de seguridad cae por debajo de 99% o experimenta más de cinco fallos en una hora, es momento de investigar.

Métricas de capacidad Ayude a evitar fallos relacionados con el almacenamiento mediante la monitorización del uso. Por ejemplo, configurar alertas cuando la utilización del almacenamiento alcance 80-90% puede evitar interrupciones causadas por la falta de espacio.

Categoría Métrico Propósito Ejemplo de medición Umbral de alerta recomendado
Actuación Objetivo de tiempo de recuperación (RTO) Asegúrese de que la velocidad de recuperación satisfaga las necesidades del negocio Minutos u horas para restaurar El RTR supera el RTO definido por el negocio
Actuación Tasas de transferencia de datos (rendimiento) Medir la velocidad de copia de seguridad y restauración MB/s o TB/hora Por debajo de la velocidad mínima del hardware
Actuación Utilización de la ventana de respaldo Asegúrese de que las copias de seguridad finalicen en el tiempo asignado Duración del tiempo (HH:MM) > 100% de ventana definida
Seguridad/Salud Tasa de éxito de las copias de seguridad Seguimiento de la fiabilidad de la protección de datos Recuento de éxitos y fracasos de % < 99% éxito o > 5 fallos por hora
Seguridad/Salud Comprobaciones de integridad de datos Verificar que los datos no estén dañados y sean recuperables Recuento de pruebas exitosas < 1 restauración exitosa en 24 horas
Seguridad/Salud Eventos relacionados con el estado de salud Identificar fallas persistentes y transitorias Estados saludables, no saludables y degradados Cualquier estado de "enfermedad persistente"
Capacidad Utilización del almacenamiento Prevenir el agotamiento del almacenamiento % bytes usados/almacenados > Capacidad 80–90%
Capacidad Consumo de almacenamiento de la bóveda de respaldo Realice un seguimiento de los costos y el uso del almacenamiento en la nube GB o TB Los datos totales superan el umbral presupuestario
Capacidad Los recursos protegidos cuentan Asegúrese de que todos los activos críticos estén cubiertos Número de instancias protegidas Conteo < inventario esperado

Esta tabla subraya la importancia de actuar con rapidez cuando se superan los límites. Monitorear estas métricas garantiza que su sistema de respaldo se mantenga confiable, seguro y listo para afrontar cualquier imprevisto.

Conclusión

Realizar un seguimiento de las métricas correctas puede cambiar sus operaciones de respaldo multinube de simplemente reaccionar ante los problemas a prevenirlos de forma proactiva. Al monitorear tasas de éxito laboral, utilización del almacenamiento, y rendimiento de recuperación, crea una red de seguridad que reduce el riesgo de pérdida de datos y tiempo de inactividad.

Las métricas que hemos cubierto se centran en tres áreas clave: protección de datos, seguridad, y control de costos. Establecer alertas de umbral y comparar regularmente los tiempos de recuperación reales con sus objetivos de RTO (Objetivo de Tiempo de Recuperación) y RPO (Objetivo de Punto de Recuperación) puede ayudarle a detectar posibles problemas antes de que se vuelvan críticos. Como bien dice Cody Slingerland, Profesional Certificado en FinOps:

""No se puede arreglar lo que no se mide"."

Este conocimiento resalta la importancia de un seguimiento exhaustivo para garantizar la continuidad del negocio.

Al usar estas métricas, puede tomar decisiones más inteligentes sobre la asignación de recursos, evitar eliminaciones de emergencia y garantizar que las copias de seguridad se completen a tiempo. Cuando las organizaciones documentan y comparten estas métricas con la gerencia, suelen justificar con mayor facilidad las actualizaciones de infraestructura y demostrar el valor de sus sistemas de copia de seguridad.

Adopte medidas prácticas, como configurar alertas automáticas para fallos que superen los cinco trabajos por hora, probar las restauraciones periódicamente para validar su RTO y RPO, y aplicar filtros multidimensionales para identificar plataformas o recursos que requieren atención. Estas acciones convierten los datos sin procesar en mejoras significativas, fortaleciendo su infraestructura de backup.

Adoptar estas prácticas de monitoreo le brinda la claridad y la confianza necesarias para administrar las copias de seguridad multinube de manera eficaz. De esta manera, reducirá riesgos, controlará costos y tendrá la seguridad de que sus datos están protegidos.

Preguntas frecuentes

¿Cuáles son las métricas clave a monitorear para lograr operaciones de respaldo en múltiples nubes exitosas?

Monitorear las métricas correctas es clave para que sus operaciones de respaldo multinube funcionen de manera fluida y confiable. Preste mucha atención a Objetivos de tiempo de recuperación (RTO) y Objetivos del punto de recuperación (RPO) Estas métricas revelan la rapidez y eficacia con la que puede restaurar sus datos cuando sea necesario. Otro factor crucial es controlar tasas de transferencia de datos y estado latente para garantizar que las copias de seguridad se realicen a tiempo y sin interrupciones en sus entornos de nube.

También es importante realizar un seguimiento utilización del almacenamiento, incluyendo la capacidad total y el espacio disponible, para aprovechar al máximo sus recursos. Vigilando tasas de éxito de las tareas de respaldo y el volumen total de datos procesados Puede ayudarle a detectar problemas potenciales con antelación, antes de que se agraven. Al supervisar estas métricas constantemente, puede mantener una estrategia de copias de seguridad fiable y eficiente.

¿Cómo pueden las empresas equilibrar costos y protección al establecer objetivos de RTO y RPO?

Para lograr el equilibrio adecuado entre costo y protección al configurar su Objetivo de tiempo de recuperación (RTO) y Objetivo de punto de recuperación (RPO), El primer paso es un análisis exhaustivo del impacto en el negocio. Esto le ayudará a identificar qué aplicaciones son absolutamente críticas y requieren los RTO y RPO más cortos, y cuáles pueden soportar tiempos de recuperación más largos y cierta pérdida de datos. Por ejemplo, las cargas de trabajo críticas deben contar con copias de seguridad frecuentes, mientras que los datos menos esenciales pueden almacenarse utilizando opciones más económicas con intervalos de copia de seguridad más largos.

Al organizar las copias de seguridad en niveles, según la frecuencia y el tipo de almacenamiento, puede evitar el gasto innecesario que supone usar almacenamiento de alto rendimiento para todos sus datos. Las pruebas de recuperación periódicas son esenciales para confirmar que sus objetivos de RTO y RPO se pueden alcanzar con su configuración actual. De no ser así, podría necesitar explorar opciones como copias de seguridad incrementales, deduplicación o herramientas eficientes nativas de la nube para gestionar los costes sin comprometer la protección.

Serverion simplifica este proceso con sus soluciones de respaldo multinube. Ya sea que necesite almacenamiento SSD de alto rendimiento para datos críticos o almacenamiento de objetos económico para archivado, sus opciones flexibles le permiten alcanzar sus objetivos de RTO y RPO sin salirse del presupuesto, sin sacrificar la fiabilidad ni la continuidad del negocio.

¿Cómo puedo mejorar la velocidad de transferencia de datos para las copias de seguridad en múltiples nubes?

Para aumentar la velocidad de transferencia de datos en las copias de seguridad multinube, concéntrese en algunas técnicas clave. Empiece por aprovechar procesamiento paralelo Al mismo tiempo, reduce el volumen de datos enviados por la red. Configurar múltiples canales de respaldo y habilitar una compresión de nivel medio puede optimizar su ancho de banda, sin sobrecargar su CPU. ¿Otro consejo? Divida los archivos grandes en fragmentos más pequeños (de aproximadamente 1 GB cada uno) y asigne estos fragmentos a canales separados. Esto permite que varios flujos de datos funcionen simultáneamente, mejorando significativamente el rendimiento.

Emparejamiento copias de seguridad completas semanales con copias de seguridad incrementales diarias Es otro enfoque inteligente. Al transmitir solo los bloques de datos modificados, puede ahorrar ancho de banda y acelerar las tareas de respaldo habituales. Controle las métricas de transferencia y considere programar las copias de seguridad durante las horas de menor actividad para evitar la congestión de la red. ¿Quiere ir un paso más allá? Usar caché perimetral o almacenamiento de alta velocidad cerca del punto de entrada a la nube puede reducir la latencia, haciendo que sus transferencias sean aún más fluidas.

La plataforma de alojamiento multi-cloud de Serverion admite estos métodos con su sólida infraestructura y centros de datos distribuidos globalmente, lo que le ayuda a lograr copias de seguridad más rápidas y eficientes.

Entradas de blog relacionadas

es_ES