Alta disponibilidad frente a tolerancia a fallos y recuperación ante desastres: Una visión general

Cuando se trata de mantener la infraestructura de TI de una organización en funcionamiento las 24 horas del día, los 7 días de la semana, todavía parece haber cierta confusión entre los tres términos principales utilizados: alta disponibilidad (HA), tolerancia a fallos (FT) y recuperación ante desastres (DR). Los tres términos se refieren al mantenimiento de la continuidad de la actividad y el acceso a los sistemas informáticos. Sin embargo, cada término tiene su propia definición específica, metodologías y casos de uso.

En esta entrada del blog, vamos a definir qué son en la práctica la alta disponibilidad, la tolerancia a fallos y la recuperación ante desastres, y exploraremos cómo se solapan los términos, así como por qué es importante aplicarlos.

Ensure Availability with NAKIVO

Ensure Availability with NAKIVO

Meet strict requirements for service availability in virtual infrastructures. Achieve uptime objectives with robust DR orchestration and automation features.

¿Qué es la alta disponibilidad?

La alta disponibilidad es la capacidad de un sistema para funcionar (tiempo de actividad) y ser accesible a los usuarios durante un periodo de tiempo determinado sin caerse. El tiempo de actividad es el tiempo durante el cual un servidor está operativo sin reiniciarse o apagarse de forma imprevista.

La alta disponibilidad (HA) se calcula como el porcentaje de tiempo que un sistema está operativo durante los tiempos establecidos, sin contar el mantenimiento planificado ni las paradas. No se espera que la HA ofrezca un tiempo de actividad del 100%, algo difícil y poco práctico de conseguir. Se considera aceptable un tiempo de inactividad de hasta 5 minutos y 26 segundos al año, lo que se traduce en un 99,999% de tiempo de actividad operativa. Sin embargo, incluso este valor puede no ser un objetivo razonable para muchas organizaciones. Dependiendo de la organización, el sector y los recursos, el valor de HA requerido puede ser inferior.

¿Cómo funciona la alta disponibilidad?

El objetivo de alta disponibilidad para una organización se consigue mediante la eliminación de un único punto de fallo en un sistema utilizando componentes de redundancia y conmutación por recuperación. Esto significa garantizar que el fallo de un solo componente no provoque la indisponibilidad de todo el sistema.

En virtualización, la alta disponibilidad puede diseñarse con la ayuda de tecnologías de clustering. Por ejemplo, cuando uno de sus hosts o máquinas virtuales (VM) dentro de un clúster falla, otra VM toma el relevo (failover) y mantiene el rendimiento adecuado del sistema.

Aunque disponer de componentes redundantes es la condición definitiva para garantizar una alta disponibilidad, estos componentes por sí solos no bastan para que el sistema se considere altamente disponible. Un sistema de alta disponibilidad es aquel que incluye tanto componentes redundantes como mecanismos de detección de fallos y redirección automática de la carga de trabajo. Pueden ser equilibradores de carga o hipervisores. DRS en VMware vSphere es un ejemplo de equilibrador de carga.

¿Cuándo es importante la alta disponibilidad?

Una arquitectura de alta disponibilidad es necesaria para cualquier carga de trabajo crítica que no pueda permitirse un tiempo de inactividad. Si el fallo de un sistema o aplicación pone en peligro la supervivencia de la empresa, la HA puede utilizarse para minimizar el tiempo de inactividad. Según Statista, el coste de una hora de inactividad fue de entre 300.000 y 400.000 dólares para el 25% de las empresas en 2020. Esto significa que incluso el altísimo valor de disponibilidad del 99,999% -5 minutos y 26 segundos de inactividad al año- puede costar a algunas empresas unos 35.000 dólares.

Además de importantes pérdidas económicas, el tiempo de inactividad puede tener otras consecuencias graves, como pérdida de productividad, incapacidad para prestar servicios a tiempo, reputación empresarial dañada, etc. Los sistemas de alta disponibilidad ayudan a evitar estas situaciones gestionando los fallos de forma automática y oportuna.

¿Qué es la tolerancia a fallos?

La tolerancia a fallos es la capacidad de un sistema para seguir funcionando correctamente sin tiempo de inactividad en caso de fallo de uno o varios de sus componentes. Un sistema tolerante a fallos incluye dos componentes estrechamente acoplados que se reflejan entre sí para proporcionar redundancia. De este modo, si el componente primario falla, el secundario está inmediatamente listo para tomar el relevo.

¿Cómo funciona la tolerancia a fallos?

La tolerancia a fallos, al igual que la alta disponibilidad, se basa en la redundancia para garantizar el tiempo de actividad. Esta redundancia puede lograrse ejecutando simultáneamente una aplicación en dos servidores, lo que permite a uno de ellos tomar el relevo del otro cuando falla el principal.

En entornos virtualizados, la redundancia para la tolerancia a fallos se consigue manteniendo y ejecutando copias idénticas de una determinada máquina virtual en hosts separados. Cualquier cambio o entrada que se produzca en la máquina virtual primaria se duplica en la secundaria. De este modo, en caso de que la máquina virtual principal se dañe, se garantiza la tolerancia a fallos mediante la transferencia instantánea de cargas de trabajo de una máquina virtual a su duplicado.

¿Cuándo es importante la tolerancia a fallos?

El diseño tolerante a fallos es crucial para los sistemas que no pueden tolerar ningún tiempo de inactividad (tiempo de inactividad cero). Si hay aplicaciones de misión crítica, y hasta el más mínimo tiempo de inactividad se traduce en pérdidas irrevocables, debería plantearse configurar sus componentes informáticos teniendo en cuenta la tolerancia a fallos.

Tolerancia a fallos frente a alta disponibilidad

Al comparar HA frente a FT, la tolerancia a fallos es una solución más costosa. Pero la tolerancia a fallos y la alta disponibilidad también difieren en dos aspectos principales:

  • La tolerancia a fallos es una versión más estricta de la alta disponibilidad. La alta disponibilidad se centra en ofrecer un tiempo de inactividad mínimo, mientras que la tolerancia a fallos va más allá al ofrecer un tiempo de inactividad cero.
  • Sin embargo, en el modelo tolerante a fallos, la capacidad de un sistema para ofrecer un alto rendimiento en caso de fallo no es la máxima prioridad. En cambio, se espera que un sistema pueda mantener el rendimiento operativo, aunque sea a un nivel reducido.

¿Qué es la recuperación ante desastres?

La recuperación ante desastres es un proceso utilizado por las organizaciones para responder a incidentes que afectan a los sistemas y recuperar rápidamente las funciones de la infraestructura informática. La recuperación ante desastres incluye un plan de recuperación ante desastres, un equipo de recuperación ante desastres, una solución específica de recuperación ante desastres, un centro de recuperación, etc. Este enfoque implica el uso de sitios calientes, templados o fríos en función del valor RTO definido en el plan de recuperación ante desastres y de los recursos disponibles.

Las dos métricas principales de la RD son los objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO) para minimizar el tiempo de inactividad y la pérdida de datos, respectivamente.

¿Cómo funciona la recuperación ante desastres?

La recuperación ante desastres requiere disponer de una ubicación secundaria en la que pueda restaurar sus datos y cargas de trabajo críticos (total o parcialmente) para reanudar un funcionamiento suficiente de la empresa tras un suceso perturbador.

Para transferir las cargas de trabajo a una ubicación remota, es necesario incorporar una solución adecuada de recuperación ante desastres. Una solución de este tipo puede encargarse de la operación de conmutación por recuperación en el momento oportuno y con poca intervención por su parte, lo que le permite alcanzar los RTO designados.

¿Cuáles son los componentes de la recuperación ante desastres?

La recuperación ante desastres es un concepto mucho más amplio y complejo que la alta disponibilidad y la tolerancia a fallos. Se refiere a una estrategia con un amplio conjunto de componentes que incluyen: evaluación de riesgos, planificación, análisis de dependencias, configuración de sitios remotos, formación del personal, pruebas, configuración de automatización, etc. Otro aspecto de la RD que va más allá de la alta disponibilidad y la tolerancia a fallos es su independencia del centro de producción.

¿Cuándo es importante la recuperación ante desastres?

Desastre no sólo se refiere a una catástrofe natural, sino a cualquier tipo de incidente perturbador que afecte a todo el centro de producción y provoque un tiempo de inactividad significativo, incluidos ciberataques, cortes de electricidad, errores humanos, fallos de software, entre otros. Esto significa que un incidente de este tipo puede producirse en cualquier momento de forma inesperada. En la mayoría de los casos, las catástrofes son imposibles de predecir o evitar, por lo que las organizaciones deben tomar medidas para reforzar su preparación para la recuperación ante desastres, así como optimizar sus estrategias de RD de forma periódica.

Recuperación ante desastres frente a alta disponibilidad

La recuperación ante desastres, a diferencia de la alta disponibilidad y la tolerancia a fallos, se ocupa de las consecuencias catastróficas que hacen que infraestructuras informáticas enteras no estén disponibles, en lugar de los fallos de un solo componente. Dado que la RD se centra tanto en los datos como en la tecnología, su principal objetivo es recuperar los datos y poner en marcha los componentes de la infraestructura en el menor tiempo posible tras un incidente imprevisto.

En cuanto a la diferencia entre alta disponibilidad y recuperación ante desastres, la alta disponibilidad y la tolerancia a fallos no pueden ayudarle a recuperar datos en caso de desastre y pérdida de datos causada por un incidente imprevisto. Este es el escenario en el que la recuperación ante desastres puede proporcionarle una infraestructura de RD independiente y copias puntuales de sus datos (puntos de recuperación) para minimizar el tiempo de inactividad y evitar la pérdida de datos. Tenga en cuenta, no obstante, las diferencias entre recuperación ante desastres y backups.

Utilización de NAKIVO Backup & Replication para la recuperación ante desastres

NAKIVO Backup & Replication es una solución rápida, fiable y asequible. Combina funciones de protección de datos y recuperación ante desastres de gama alta -la función Site Recovery- diseñadas para simplificar y automatizar las operaciones de recuperación ante desastres.

Try NAKIVO Backup & Replication

Try NAKIVO Backup & Replication

Get a free trial to explore all the solution’s data protection capabilities. 15 days for free. Zero feature or capacity limitations. No credit card required.

Si tiene configurado un sitio remoto, como exigen las prácticas recomendadas de DR, es fácil de usar y configurar, al tiempo que le permite crear flujos de trabajo de recuperación complejos.

High availability vs disaster recovery with NAKIVO

Puede combinar hasta 200 acciones en un flujo de trabajo (job) para adaptarse a diferentes escenarios de desastre y servir a diferentes propósitos, incluyendo: supervisión, migración de centros de datos, conmutación por error de emergencia, conmutación por error planificada, conmutación por error, etc. En caso de catástrofe, cualquiera de los flujos de trabajo creados puede ponerse en marcha de inmediato, con un solo clic, lo que permite a las empresas lograr el menor tiempo de recuperación.

Con la función Site Recovery instalada, puede realizar pruebas automatizadas de recuperación ante desastres sin interrupciones. De este modo, puede asegurarse de que los flujos de trabajo de recuperación del entorno son válidos, que reflejan todos los cambios recientes que se han producido en su infraestructura de TI y que no existen puntos débiles antes de que se produzca un desastre real.

Testing fault tolerance and disaster recovery is recommended

Artículos recomendados