Pruebas de recuperación ante desastres y por qué su empresa las necesita

Por muy fiables que sean hoy en día el hardware y el software, las máquinas siguen siendo vulnerables a los fallos por diferentes razones. Cuando se bloquean, los sistemas pueden quedar fuera de servicio y los datos no estar disponibles durante largos periodos de tiempo. E incluso cuando los sistemas vuelven a estar en línea, a veces es imposible restaurar los datos y se pierden irrevocablemente. La forma más fiable de mitigar estos riesgos es poner en marcha un plan integral de recuperación ante desastres (RD).

Un plan de recuperación ante desastres es un conjunto de procedimientos que deben llevarse a cabo para restaurar los datos y las cargas de trabajo dentro de unos plazos establecidos. Esta detallada lista de control de las catástrofes incluye mecanismos establecidos de antemano para prepararse ante diferentes escenarios de catástrofe.

Las estadísticas muestran que el 95% de las empresas de todo el mundo invierten considerables recursos en planificar lo peor, incluso en DR. Sin embargo, sólo el 78% utiliza pruebas de recuperación ante desastres para verificar que su plan cumple realmente los objetivos. Siga leyendo para saber qué son las pruebas de recuperación ante desastres y cómo desarrollar una estrategia de pruebas de recuperación ante desastres para su organización, con el fin de garantizar la disponibilidad del sistema y la continuidad de la actividad en cualquier incidente.

Ensure Availability with NAKIVO

Ensure Availability with NAKIVO

Meet strict requirements for service availability in virtual infrastructures. Achieve uptime objectives with robust DR orchestration and automation features.

¿Qué son las pruebas de recuperación ante desastres?

Las pruebas de recuperación ante desastres consisten en la verificación de los pasos del plan de recuperación ante desastres para garantizar que el plan puede aplicarse con éxito y que las aplicaciones y datos críticos pueden restaurarse tras una interrupción. Probar el plan de recuperación ante desastres tiene por objeto garantizar que las operaciones de la empresa y los servicios críticos puedan mantenerse durante y después de un incidente.

Las pruebas de recuperación ante desastres, en su forma más completa, consisten en simular un fallo informático o cualquier otro tipo de interrupción de la actividad empresarial para evaluar el plan de recuperación establecido. Los principales objetivos de las pruebas de recuperación ante desastres son comprobar si una organización puede cumplir los objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO) establecidos en el plan de recuperación ante desastres. Debes entender los RPOs vs RTOs y establecerlos para cada aplicación y VM. La prueba de RD también proporciona información sobre cómo se comporta el sistema si alguna parte de su infraestructura deja de estar disponible. Esta información puede ayudarle a perfeccionar el plan de RD de su organización y a corregir los puntos débiles antes de que se produzca una interrupción real.

Tenga en cuenta que un plan de pruebas de recuperación ante desastres no debe limitarse a los componentes técnicos del plan de RD. Igual de importante es comprobar que cada empleado implicado en la recuperación ante desastres comprende su función y tiene acceso a los recursos que necesita para desempeñar su job durante una interrupción.

Las pruebas del plan de recuperación ante desastres deben realizarse con regularidad, preferiblemente varias veces al año. Los entornos informáticos cambian regularmente con la retirada de software, la introducción de nuevas aplicaciones o la sustitución de hardware, lo que a su vez exige las modificaciones oportunas de su plan de RD. El proceso de pruebas de RD puede formar parte de las rutinas de mantenimiento y de la formación del personal.

Por qué son importantes las pruebas de recuperación ante desastres

El riesgo de no poner a prueba un plan de recuperación ante desastres es la pérdida de datos y de acceso a los sistemas. Puede asegurar su empresa contra pérdidas, pero ninguna póliza de seguros puede reemplazar los datos perdidos como resultado de un incidente o las repercusiones de un tiempo de inactividad prolongado en una empresa. La única forma de garantizar realmente el tiempo de actividad y la disponibilidad es crear un plan de DR y realizar pruebas periódicas. Si todavía no está convencido de que sea necesario probar el plan de recuperación ante desastres, aquí tiene una lista de lo que las pruebas de recuperación ante desastres le ayudan a conseguir antes de que se produzca un incidente:

  • Descubrir lagunas o fallos en un plan de RD
  • Asegúrate de tener la secuencia de acciones correcta durante la recuperación
  • Verificar que los objetivos de recuperación son realistas y pueden alcanzarse.
  • Minimizar la pérdida de datos
  • Repasar las acciones del equipo de RD y asegurarse de que cada miembro entiende su papel
  • Introducir actualizaciones y correcciones antes de que sea demasiado tarde

Componentes de un proceso de prueba de recuperación ante desastres

Una prueba de RD debe planificarse para garantizar que aporte resultados y contribuya a mejorar la preparación para la RD. Esto significa que los objetivos de las pruebas de recuperación ante desastres deben ser claros, y que debe tener un calendario especificado sobre la frecuencia de las pruebas, los criterios de éxito, la evaluación de los resultados y los pasos para abordar las deficiencias y cualquier fallo de la RD. Repasemos estos componentes con más detalle.

Ajustar el alcance de la prueba DR

El alcance de las pruebas de RD implica un conjunto de supuestos y expectativas que deben cumplirse durante el proceso de prueba. La configuración del alcance de las pruebas debe incluir:

  • Determinación de los sistemas y funciones que se incluirán en las pruebas de RD
  • Definir qué tipo de proceso de recuperación ante desastres se pondrá a prueba: recuperación de máquinas completas a partir de backups, conmutación por error a un sitio de RD, etc.
  • Establecer excepciones y limitaciones por adelantado, ya que es posible que algunos componentes de su plan de RD no se ejecuten según lo previsto.
  • Especificación de los departamentos y el personal incluidos en el proceso de pruebas de RD
  • Definición de los escenarios que se probarán: fallo del sitio primario, ataque de ransomware, pérdida de conexión, fallo del servidor/base de datos, etc.

Revisión del plan de recuperación ante desastres

Antes de realizar las pruebas, debe revisar el plan de RD. Las pruebas de RD deben realizarse de forma organizada centrándose en las políticas y prácticas de la organización. Así pues, el equipo de recuperación ante desastres debe reunirse con la alta dirección para revisar el plan de RD existente y determinar los cambios o actualizaciones que deben aplicarse en función del estado actual de la empresa. Entre ellos figuran factores como la introducción de nuevos productos de hardware o software, la expansión de la empresa, los recortes presupuestarios, la rotación de personal, etc.

Frecuencia de las pruebas DR

Dado que los entornos informáticos actuales son muy dinámicos, determinar la frecuencia de revisión es fundamental para mantener el plan de recuperación ante desastres constantemente actualizado. Algunas organizaciones revisan y actualizan sus planes de RD una vez al año. Sin embargo, la estrategia más eficaz consiste en actualizar (y volver a probar) su plan de RD cada vez que los componentes de misión crítica de su organización sufran cambios. Aunque las pruebas de recuperación ante desastres pueden llevar mucho tiempo y resultar costosas, debe crear su calendario de pruebas en función de las necesidades y recursos de la empresa, teniendo en cuenta el alcance de los procesos de RD.

Criterios de éxito de las pruebas

Es necesario establecer los criterios que determinan si las pruebas de recuperación ante desastres de la máquina virtual tienen éxito o no. En el mejor de los casos, las pruebas de DR de máquinas virtuales pueden considerarse superadas cuando se demuestra que un plan de DR es válido y viable.

Sin embargo, las pruebas de recuperación ante desastres pueden considerarse un éxito incluso cuando un plan de RD no ha superado la prueba. Este escenario permite identificar los fallos de un plan de RD antes de que se produzca el desastre real y abordarlos en la siguiente iteración del plan. Esencialmente, los criterios de éxito de las pruebas se definen en función de expectativas predeterminadas, que deben expresarse claramente en el plan de pruebas de recuperación ante desastres para evitar cualquier confusión.

Evaluación de los resultados de las pruebas

Los resultados de un proceso de pruebas de recuperación ante desastres con máquinas virtuales proporcionan una visión general de las estrategias de recuperación ante desastres utilizadas actualmente en la empresa. El equipo de recuperación puede evaluar los resultados de las pruebas y proponer mejoras o ajustes del plan de recuperación ante desastres en función de los problemas detectados.

A la hora de evaluar los resultados de las pruebas de RD, también deben tenerse en cuenta las siguientes métricas:

  • Cuánto tiempo transcurrió antes de que se restablecieran las actividades de misión crítica.
  • Cómo se ejecutó cada paso del plan (si se produjeron errores o retrasos).
  • Cuántas operaciones se completaron con éxito durante el proceso de prueba de RD

Deben introducirse y probarse cambios y actualizaciones para mejorar el plan de RD. El objetivo es proporcionar un proceso de recuperación más eficaz y manejable.

Revisión posterior del plan de RD

Después de ejecutar un plan de recuperación ante desastres en modo de prueba, es aconsejable revisar de nuevo el plan de RD. Los puntos fuertes y débiles, así como cualquier resultado inesperado, deben registrarse durante el proceso de prueba de recuperación ante desastres y debe medirse su impacto en la continuidad de la actividad. Esto puede mejorar significativamente sus estrategias de RD e impulsar el rendimiento general. Las medidas para subsanar las deficiencias y los fallos deben detallarse y añadirse a la siguiente iteración del plan de RD.

Factores a tener en cuenta antes de probar el plan de recuperación ante desastres

  • Número de personas en el equipo de RD: Debe haber al menos dos personas en un equipo de recuperación ante desastres para evitar el problema del «punto único de fallo». Con varios miembros del equipo, si una persona no puede ser localizada durante una catástrofe, puede estar seguro de que hay un sustituto con los conocimientos necesarios y acceso al lugar de la RD.
  • Hora del día elegida para las pruebas de recuperación ante desastres: Por lo general, las pruebas de RD se ejecutan fuera del horario laboral, ya que el proceso requiere mucho tiempo y podría interrumpir las operaciones de la empresa o afectar al rendimiento general. Sin embargo, los resultados de estas pruebas pueden no ser indicativos de cómo funcionaría el plan de recuperación ante desastres en condiciones reales de trabajo. Probar los componentes de un plan de DR de máquinas virtuales de forma aislada durante las horas de trabajo podría ser una solución ideal. Esto ayuda a reducir el riesgo de sobrecarga del sistema que presentan las pruebas completas.
  • Cambios en el equipo o en la infraestructura informática: Antes de poner a prueba el plan de recuperación ante desastres, considere los diversos factores que podrían hacer que su plan de recuperación ante desastres quede incompleto y anticuado. Como ya se ha mencionado, estos factores pueden incluir nuevos componentes de infraestructura, cambios de personal, entre otras cosas. Mantenga informado al equipo de RD de los nuevos cambios en el entorno y envíe breves notas notificando al personal las últimas actualizaciones.

Métodos de ensayo de recuperación ante desastres

En esta sección, tratamos los cuatro métodos de prueba de recuperación ante desastres más habituales. Considérelos detenidamente antes de decidir cuál es el enfoque adecuado para su organización o si puede utilizarse una combinación de estos enfoques.

Lista de comprobación

La prueba de la lista de comprobación de un plan de recuperación ante desastres consiste en revisar la lista de requisitos y condiciones que deben cumplirse. Esta revisión es un buen punto de partida, ya que es la opción más básica e implica analizar el plan actual y revisar cada punto para detectar las partes obsoletas o que faltan. Esto significa verificar, por ejemplo, que el sitio de backup tiene el tamaño suficiente, que el equipo de recuperación recibe notificación de las últimas actualizaciones, que la solución de protección de datos está en funcionamiento, etc.

Mediante este método de prueba de la recuperación ante desastres, el equipo de recuperación puede revisar rápidamente el plan de recuperación ante desastres, asegurarse de que todos los componentes están en su sitio e identificar cualquier componente que falte en la estrategia de recuperación ante desastres. Este procedimiento puede llevarse a cabo en un tiempo mínimo y sin una gran participación del personal.

Recorrido por las pruebas de RD

El objetivo de esta estrategia es recorrer verbalmente cada paso del plan de recuperación ante desastres de una MV e identificar cualquier problema o deficiencia. En este caso, todos los miembros de un equipo de recuperación participan en la revisión y el debate del plan de RD, formulando recomendaciones.

Es esencial asegurarse de que todo el mundo conoce a fondo el plan y es consciente de sus responsabilidades durante un evento de RD. Este método sólo implica una discusión verbal del proceso de RD. Los aspectos tecnológicos de su plan de RD no se prueban ni aprueban realmente en las pruebas de recorrido.

Pruebas DR de sobremesa/simulación

En una prueba práctica, la organización se somete a un escenario de catástrofe simulado para determinar si el plan de RD es adecuado y si se pueden alcanzar los objetivos definidos. Este método de prueba de RD puede considerarse una extensión de la prueba de recorrido. A todos los miembros del equipo se les presentan varios escenarios de catástrofe, que revisan debatiendo cómo actuarían en esas circunstancias. Esto le permite poner a prueba la preparación de su personal en un entorno más realista y comprobar si su plan de recuperación ante desastres puede hacer frente a problemas inesperados.

  • Prueba de mesa. El equipo de RD lleva a cabo un recorrido del plan paso a paso, como si se hubiera producido una catástrofe real. Este método de pruebas de recuperación ante desastres ayuda a identificar posibles puntos ciegos y problemas ocultos.
  • Simulación de escenarios. Este método consiste en ejecutar el plan de RD en un entorno de prueba sin interrumpir el flujo de trabajo de producción. La simulación se ejecuta según escenarios de recuperación específicos.
  • Simulación de recuperación ante desastres. Este método de prueba de RD es similar a la simulación descrita anteriormente, pero esta vez el escenario incluye el fallo total de las operaciones en su sitio principal. El método consiste en intentar una recuperación completa en una ubicación externa.

Pruebas paralelas

Las pruebas paralelas permiten comprobar las funciones de los sistemas de recuperación para determinar si pueden ejecutar las operaciones empresariales y asegurar los procesos críticos. Los sistemas primarios no se incluyen en el proceso de pruebas de recuperación ante desastres, ya que se espera que soporten toda la carga de trabajo de producción. Es una forma segura y no disruptiva de probar sistemas técnicos.

Pruebas de interrupción total

Una prueba de DR con interrupción total proporciona pruebas exhaustivas de su plan de DR de máquinas virtuales. En este caso, su sitio DR asume toda la carga de trabajo de producción y el sitio primario se apaga. El objetivo es recuperarse lo antes posible utilizando el plan corporativo de recuperación ante desastres. La ejecución de una prueba de interrupción total debe estar bien pensada, ya que las operaciones normales pueden verse interrumpidas y es bastante costosa.

Cada uno de los procesos de recuperación debe documentarse. Identifique todos los problemas e inquietudes durante la ejecución de las pruebas de RD para abordarlos posteriormente. Las acciones del equipo de recuperación deben observarse atentamente para detectar posibles lagunas en su plan de DR de máquinas virtuales. Las pruebas de interrupción total también son un método adecuado para comprobar si los objetivos de recuperación ante desastres son aceptables y alcanzables.

Puede plantearse realizar la prueba de interrupción total sin avisar previamente a su personal. Esto le permitirá evaluar con mayor precisión el grado de preparación de su equipo en caso de catástrofe.

Consejos útiles para las pruebas de recuperación ante desastres

Probar un plan de DR es una tarea importante que a veces puede parecer abrumadora. Los siguientes consejos para las pruebas de RD pueden ayudarle a ahorrar tiempo y reducir el estrés:

  • Tras instalar cualquier nuevo producto de hardware o software, pruébalos inmediatamente para verificar su funcionalidad e integridad. Esto también le ayuda a encontrar el RTO del producto y a saber cómo podría funcionar durante los procedimientos de DR.
  • Realice un análisis de riesgos (AR) y un análisis del impacto en el negocio (BIA) antes de diseñar su plan de RD. Revise constantemente los resultados de estos análisis y, si se producen cambios, considere cómo deben reflejarse en su estrategia de RD.
  • Las pruebas deben realizarse en circunstancias lo más parecidas posible a un escenario de RD. Mediante la simulación de una catástrofe real, puede comprobar el rendimiento de los empleados en circunstancias de RD. Esto también ayuda a reducir el estrés entre su personal, ya que los empleados se acostumbran más a diversos escenarios de RD y aprenden lo que se espera de ellos.
  • Invite a observadores independientes a revisar su plan de RD y a supervisar el proceso de pruebas. Este enfoque garantiza que los empleados no tomen atajos para completar rápidamente las pruebas. Además, los observadores independientes pueden ayudar a reescribir un plan de RD y mejorarlo, a menudo identificando problemas que no son visibles para los que están dentro de la organización.
  • Disponga de una lista completa de todas las aplicaciones de su infraestructura. Esta lista debe incluir los detalles de cada aplicación, sus configuraciones, los datos de contacto de los propietarios de la aplicación y los detalles de su contrato/licencia.
  • En las fases primarias, las pruebas de RD deben realizarse por partes y fuera del horario laboral para no sobrecargar el sistema. Tras identificar cualquier deficiencia y mejorar el plan en consecuencia, puede plantearse realizar más pruebas completas en horario laboral.

Recuperación ante desastres con NAKIVO Backup & Replication

NAKIVO Backup & Replication es una solución fiable de backup y recuperación ante desastres. La solución permite automatizar los procesos de backup, replicación y recuperación ante desastres, garantizando al mismo tiempo la integridad de los datos en distintas plataformas (físicas, virtuales o en la nube). La solución NAKIVO contiene funciones de replicación de máquinas virtuales, conmutación por error, conmutación por recuperación y recuperación del entorno ante desastres. Además, puede probar una secuencia de recuperación ante desastres para asegurarse de que todo está configurado correctamente.

Try NAKIVO Backup & Replication

Try NAKIVO Backup & Replication

Get a free trial to explore all the solution’s data protection capabilities. 15 days for free. Zero feature or capacity limitations. No credit card required.

Ejecución de jobs de recuperación del entorno en modo de prueba

NAKIVO Backup & Replication permite ejecutar trabajos de restauración del entorno en modo de prueba para comprobar si todos los componentes del sistema se pueden restaurar fácilmente durante un evento de recuperación ante desastres y si se pueden cumplir los objetivos de DR estipulados. Esta prueba no interrumpe las cargas de trabajo de producción. Un job de Site Recovery en modo de prueba puede ser programado así como ejecutado bajo demanda.

En el siguiente tutorial se explica cómo ejecutar manualmente una función Site Recovery en modo de prueba. Tenga en cuenta que primero debe configurarse una función Site Recovery.

  1. En el panel Jobs, seleccione un job de restauración del entorno y haga clic en el botón Run Job. El menú desplegable le ofrece dos opciones. Haga clic en Probar job de restauración del entorno.

Cómo empezar las pruebas de recuperación ante desastres

  1. En el cuadro de diálogo que se abre, puede configurar sus métricas de RTO. Defina el tiempo máximo permitido que puede tardar en completarse su función Site Recovery. Si la prueba supera el valor de RTO introducido, se considera fallida. También puede desactivar esta opción.

Las pruebas de recuperación ante desastres incluyen la comprobación del objetivo de tiempo de recuperación

  1. Por último, haga clic en Probar para ejecutar el job.

Opciones para el calendario de pruebas

También puede configurar opciones de programación de pruebas al configurar un job de Site Recovery. Estas opciones funcionan cuando se ejecuta este job en modo de prueba.

You can schedule disaster recovery testing when configuring a site recovery job

Informe por correo electrónico

Con esta opción activada, los destinatarios seleccionados reciben un informe de prueba cada vez que se completa el job. Debes configurar los ajustes de notificación por correo electrónico en 5. Opciones antes de hacer clic en Finalizar.

Configuring Site Recovery job options for failback

También puede descargar un informe en formato PDF o CSV directamente desde un navegador web. Haga clic con el botón derecho en una función Site Recovery y pulse Informe de la función Site Recovery.

Artículos recomendados