Prácticas recomendadas de supervisión de la infraestructura de TI

En las pequeñas empresas con pocos servidores y estaciones de trabajo, los administradores de sistemas suelen poder identificar rápidamente cualquier problema que se produzca sin necesidad de herramientas especiales. A medida que una empresa crece, también lo hace el número de servidores y otros dispositivos de red. Y si algo va mal, el administrador del sistema debe ser capaz de identificar el problema rápidamente para evitar problemas graves.

Buscar un problema manualmente en una infraestructura mediana o grande puede ser complicado y llevar mucho tiempo. Afortunadamente, hoy en día existe una amplia supervisión automatizada de la infraestructura informática para ayudar a los administradores a identificar el tipo y el origen de los problemas lo antes posible. Estas herramientas también ayudan a los administradores a prevenir proactivamente los problemas y cuellos de botella antes de que se produzcan mediante la supervisión de la asignación de recursos y el consumo en tiempo real.

Esta entrada de blog explica qué es la supervisión de infraestructuras informáticas, por qué utilizar herramientas de supervisión para servidores y otros dispositivos de red, y qué prácticas recomendadas seguir.

Proactive Monitoring for VMware Infrastructures from NAKIVO

Proactive Monitoring for VMware Infrastructures from NAKIVO

Monitor VMware vSphere key metrics to enhance capacity planning and resolve bottlenecks before they become an issue.

¿Qué es la supervisión de infraestructuras informáticas?

La supervisión de infraestructuras es el proceso de seguimiento de las métricas de hardware y software en un entorno físico o virtual para mejorar la eficiencia y optimizar los procesos. Para ello, se recopilan y analizan los datos sobre disponibilidad, rendimiento y uso de recursos del hardware y las aplicaciones críticas.

Una infraestructura informática es el marco subyacente que permite a las empresas prestar servicios, realizar transacciones, proporcionar información, interactuar con los clientes, etc. Esta infraestructura se compone de centros de datos, aplicaciones y software, redes y hardware como servidores, routers, etc.

Tipos y métodos de supervisión informática

Veamos los dos enfoques principales de la supervisión de infraestructuras informáticas.

  • La supervisión basada en agentes puede realizarse mediante software cliente-servidor instalando agentes en cada máquina supervisada. Este tipo de herramientas de supervisión de TI requiere instalar el componente de servidor del software de supervisión del sistema en un servidor o máquina virtual. El software del servidor registra los datos recogidos en una base de datos y proporciona una interfaz web para que los administradores y usuarios configuren el software de supervisión del sistema y supervisen la infraestructura de TI.Un agente es el componente del software de supervisión de TI que se instala en la máquina de destino de la que deben recogerse los datos. El agente interactúa con el servidor a través de la red y envía los datos recogidos al servidor de supervisión. El agente debe ser compatible con varios sistemas operativos para cubrir mejor la infraestructura informática.
  • La supervisión sin agente puede realizarse utilizando software del lado del servidor y protocolos de red compatibles sin necesidad de instalar agentes de software de supervisión en cada máquina supervisada. Puede utilizarse para distintas plataformas, lo que resulta especialmente útil si no puede instalar el agente de supervisión (por ejemplo, en un conmutador o un enrutador).

El software de supervisión de TI puede comprobar la disponibilidad de los servicios en un host remoto mediante los protocolos ICMP, SSH, FTP, HTTP y DNS sin necesidad de instalar un agente de supervisión en el host remoto. El software de supervisión del servidor intenta acceder al host de destino a través del protocolo definido y, en función de la respuesta del servidor, determina el estado del servicio necesario.

Dos de los protocolos utilizados son:

  • El protocolo simple de gestión de redes (SNMP ) se ha desarrollado especialmente para tareas de supervisión sin necesidad de instalar agentes de supervisión en hosts remotos. El host remoto debe ejecutar el servicio SNMP adecuado para admitir la recopilación de datos a través de SNMP desde este host supervisado. SNMP funciona en la capa de aplicación del modelo OSI, y la última versión es SNMPv3.El protocolo SNMP suele ser compatible con conmutadores, enrutadores, puntos de acceso, cortafuegos, impresoras de red y otros dispositivos conectados a la red. Cada identificador de objeto está asociado al parámetro correspondiente, como bytes recibidos, bytes transmitidos, temperatura de la CPU, nivel de tóner en el cartucho de impresión, etc. Los identificadores de objetos se numeran utilizando la estructura jerárquica (en forma de árbol). Por ejemplo, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 es el identificador del sensor de temperatura del hardware Intel.

    Tenga en cuenta que un agente SNMP no es lo mismo que un agente de supervisión de software de supervisión de sistemas.

  • Windows Management Instrumentation (WMI) es un protocolo de red propiedad de Microsoft desarrollado para supervisar sistemas basados en Windows sin necesidad de instalar agentes. La herramienta de supervisión envía una consulta WMI a un host supervisado y, a continuación, lee los datos devueltos.

Supervisión informática de sistemas virtualizados

La supervisión de máquinas virtuales y contenedores tiene sus propias funciones que deben tenerse en cuenta para lograr los resultados deseados.

Supervisión de máquinas virtuales. Para las máquinas virtuales, utilice soluciones de software de supervisión sin agente que utilicen las API de VMware para realizar un seguimiento del rendimiento y la eficiencia de los hosts ESXi, los servidores vCenter y las máquinas virtuales. Las métricas de supervisión incluyen el uso de CPU, memoria, almacenamiento y red. Este enfoque permite evitar sobrecargas en comparación con el método en el que los agentes de supervisión se instalan en las máquinas virtuales.

La supervisión de contenedores es complicada en comparación con la supervisión de servidores tradicionales y máquinas virtuales. Esto se debe a que los contenedores se aprovisionan/destruyen rápidamente y comparten recursos, lo que dificulta la medición de los recursos consumidos de un host. La instalación de N agentes en N contenedores no es racional. Al igual que las máquinas virtuales, los contenedores pueden supervisarse mediante API especiales.

La API de estadísticas de Docker es un mecanismo nativo proporcionado con los contenedores Docker para supervisarlos. La idea principal de la supervisión de contenedores es supervisar las aplicaciones en contenedores de la arquitectura de microservicios que se ejecutan en contenedores.

Supervisión de infraestructuras informáticas: Componentes

Exploremos los distintos componentes que pueden rastrearse con la supervisión de la infraestructura informática para saber más. Esta clasificación de los componentes supervisados es condicional porque pueden cruzarse entre sí.

  • Supervisión de hardware para la temperatura de la CPU, la temperatura del disco duro, HDD S.M.A.R.T. estado, datos de duración de la batería, voltaje, etc. memoria libre, espacio en disco, actividad en disco y uso de archivos de intercambio.
  • Supervisión de la red para las tasas de transferencia de datos en diferentes interfaces de red, el número de usuarios conectados (útil para conexiones VPN), conexiones de red, cortafuegos, conexiones TCP y UDP (para detectar malware), etc. Puede ayudarle a detectar la sobrecarga de la red, la baja velocidad de transferencia de datos y los intentos no autorizados de acceder a la red.
  • Supervisión de aplicaciones para comprobar los registros de las aplicaciones, incluidos los del sistema operativo, detectar códigos de error y mostrar información agregada en la interfaz web o enviar notificaciones a los administradores. La supervisión de aplicaciones puede incluir el consumo de CPU y memoria por parte de una aplicación.
  • Supervisión de la seguridad para detectar problemas de seguridad y abordar vulnerabilidades de software, puertos abiertos y permisos no deseados, que pueden utilizarse para iniciar ataques en su entorno.
  • Supervisión de actividades críticas para detectar intentos de inicio de sesión no autorizados en un sistema, modificaciones de archivos, etc. La supervisión de archivos y carpetas le ayuda a detectar actividades inusuales causadas por ransomware y a responder rápidamente para evitar la pérdida de datos.
  • Supervisión del tiempo de actividad para detectar si un host se ha apagado aunque nadie se haya dado cuenta de ello (por ejemplo, si un servidor se ha reiniciado por la noche en horas no laborables tras instalar actualizaciones automáticas o después de un apagón). Cuanto más tiempo funcione correctamente el host sin reiniciarse, más fiable y estable será el sistema.

Prácticas recomendadas para la supervisión de infraestructuras informáticas

Para lograr la máxima eficacia en la supervisión, siga estas prácticas recomendadas de supervisión de infraestructuras. Con una comprensión clara de cómo implementar la supervisión de TI, puede mitigar los riesgos de inactividad y reaccionar a los problemas con mayor eficacia antes de que los usuarios sientan el impacto negativo de los servicios y aplicaciones fallidos.

Elija la solución de supervisión adecuada

Para elegir la solución de supervisión adecuada a las necesidades de su organización, determine qué componentes requieren supervisión en su infraestructura informática. Para ello, clasifique el hardware, los sistemas y las aplicaciones en función de su importancia para las operaciones de la empresa.

A continuación, podrá definir su estrategia de supervisión y seleccionar el software de supervisión de infraestructuras informáticas óptimo. Su estrategia incluirá el hardware y el software a supervisar, qué métricas supervisar, la profundidad de la supervisión y cómo responder cuando se produzcan problemas. En función de estos parámetros, seleccione el software de supervisión que se adapte a sus requisitos.

Si necesita supervisar máquinas virtuales VMware en hosts ESXi, seleccione una solución que acceda a las máquinas virtuales a nivel de hipervisor en lugar de instalar agentes en el sistema operativo invitado. Un software de supervisión empresarial universal combinará agentes para supervisar máquinas físicas y API de virtualización para supervisar hosts de hipervisor y máquinas virtuales. Este software de supervisión puede utilizar protocolos como SNMP para supervisar dispositivos de red y otros equipos y utilizar API especiales para supervisar elementos en las nubes de AWS y Azure.

Recopilar métricas relevantes

Las prácticas recomendadas para la supervisión de las TI recomiendan enfoques para obtener siempre la información pertinente:

  • Defina qué métricas necesita supervisar para máquinas físicas, máquinas virtuales, aplicaciones, redes y diferentes dispositivos.
  • Compruebe periódicamente los parámetros de rendimiento y los registros de supervisión.
  • Revise periódicamente las métricas supervisadas y realice algunos cambios en la supervisión de la infraestructura informática si es necesario.

Configurar el acceso a los cuadros de mando adecuados

El software de supervisión de TI suele recopilar datos y mostrar la información en una vista optimizada en la interfaz web. Una interfaz web suele contener cuadros de mando con información visualizada recopilada. El administrador del sistema y los usuarios autorizados pueden abrir la interfaz web y consultar información resumida, gráficos, estadísticas y otros datos de toda la infraestructura y de servidores, dispositivos y aplicaciones concretos.

Defina quién debe ver los datos de supervisión. Conceder acceso a los usuarios para supervisar sólo lo que necesitan para desempeñar sus responsabilidades, siguiendo el principio del mínimo privilegio. Configure cuadros de mando personalizados para distintos grupos de usuarios, por ejemplo:

  • Los programadores pueden supervisar servidores de bases de datos, servidores de aplicaciones, servidores web y los clústeres de Kubernetes que utilizan.
  • Los encargados de las pruebas pueden supervisar los servidores y las máquinas virtuales utilizados para las pruebas.
  • Los administradores del sistema pueden supervisar todos los elementos.
  • Los responsables de ventas pueden necesitar ver información sobre el sistema CRM.

Configurar alertas/notificaciones automáticas

Los administradores y usuarios pueden consultar los datos de supervisión en los paneles de control disponibles. Se trata de una opción útil, pero ¿cómo puede estar informado de inmediato? Los administradores no pueden pasarse todo el día supervisando las estadísticas. Por este motivo, la mayoría de las herramientas de supervisión informática permiten a los administradores configurar notificaciones automáticas que se envían por correo electrónico, Skype, SMS, etc. Los administradores pueden configurar activadores basados en eventos específicos para enviar notificaciones al destino elegido.

Las alertas pueden priorizarse: las más críticas deben tener el mínimo retraso, mientras que las demás pueden enviarse con un retraso de unos minutos. Por ejemplo, si un host se desconecta, se envía un mensaje de notificación en dos minutos a un grupo de correo electrónico o a un grupo de Skype cuyos miembros son administradores, usuarios avanzados y jefes de equipo. Si un servidor vuelve a estar en línea, se envía al grupo el mensaje de notificación correspondiente. También puedes configurar alertas de poco espacio en disco, sobrecarga de CPU y memoria insuficiente en los servidores. Si el dispositivo de red dispone de las funciones adecuadas, puede incluso configurar notificaciones sobre el bajo nivel de tóner de un cartucho en la impresora de red. Puede ser útil si los usuarios siempre imprimen páginas importantes y usted quiere evitar olvidarse de comprobar si hay cartuchos llenos en el inventario.

Las prácticas recomendadas para la supervisión de infraestructuras recomiendan configurar el envío de notificaciones automáticas sólo para los parámetros necesarios. Si configura el envío de notificaciones sobre todas las incidencias, será difícil gestionar la información recibida.

Establecer el umbral de las notificaciones

Configure los umbrales para mostrar y enviar notificaciones. Si se configura para que las notificaciones sean inmediatas, se pueden ver muchos mensajes de alerta en breves picos de rendimiento de la CPU, periodos cortos de redes «inalcanzables» causados por la sobrecarga del servidor, etc. Configure el umbral adecuado para reaccionar a tiempo y minimizar la avalancha de notificaciones. Una configuración adecuada del umbral reduce la probabilidad de que se produzcan falsos positivos.

Cuando configure el software de supervisión del sistema, establezca los intervalos adecuados para recopilar datos y generar informes. Si el intervalo para generar un informe es demasiado pequeño, los procesos que generan informes y gráficos en los cuadros de mando pueden interferir con los procesos centrales, y la carga de la CPU aumenta considerablemente. Eso puede provocar una sobrecarga y el fallo del servidor de supervisión.

Marcar prioridades de notificación

Sin priorizar las notificaciones, se muestran como una avalancha irrelevante de datos. Analizar estos datos para encontrar los importantes lleva mucho tiempo, no es cómodo y es ineficaz. Configurar la solución de supervisión de la infraestructura informática para que muestre sólo lo que necesita con las prioridades establecidas le facilita la vida.

En la infraestructura informática pueden producirse distintos problemas. Algunos pueden ser críticos, otros no.

  • Ejemplos de cuestiones críticas. Fallo de un servidor controlador de dominio Active Directory, servidor de base de datos de producción, servidor ESXi que ejecuta máquinas virtuales de misión crítica, S.M.A.R.T. defectuoso. estado de una unidad de disco, poco espacio en disco, alta temperatura de la CPU, insuficiente memoria libre, etc.
  • Ejemplos de problemas moderados (prioridad media). Fallo de un servidor de pruebas, una máquina virtual de pruebas, un gestor de errores, etc.
  • Ejemplos de problemas leves (menores). Bajo nivel de tóner en una impresora, etc.

Las prioridades pueden ser diferentes para cada empresa, y debe ajustarlas en función de sus requisitos. Establezca la prioridad de los distintos tipos de incidencias si es posible mostrarlas en los paneles de supervisión y al enviar notificaciones automáticas, por ejemplo:

  • [Critical] El host 192.168.17.2 (DC01) está inalcanzable desde hace 5 minutos.
  • [Critical] La temperatura de la CPU es demasiado alta (82 °C) en el host 192.168.17.89 (Ora12-prod).
  • [Critical] Poco espacio en disco en C: en el host 10.10.10.6 (FS-06).
  • [Moderate] VM 10.10.10.35 (Oracle-test) en el host 192.168.17.22 (ESXi-22) es inalcanzable durante 5 minutos.
  • [Minor] El nivel de tóner es bajo para 192.168.17.8 (impresora HP).

Los problemas críticos son urgentes y los administradores deben solucionarlos lo antes posible. Las cuestiones menores pueden esperar una respuesta.

Comprobar el funcionamiento de la supervisión

Después de configurar un sistema de supervisión de la infraestructura informática, hay que probar cómo funciona y si las notificaciones se envían correctamente. No espere a una situación de emergencia real y programe una prueba de funcionamiento después de terminar la configuración. Tras la prueba, es posible que tenga que ajustar su sistema de supervisión informática. Las pruebas permiten garantizar que la supervisión funciona como se espera y determinar su eficacia.

Crear un plan de acción de respuesta

Defina qué hacer tras recibir notificaciones cuando se produzcan problemas. Debe tener una solución rápida sobre cómo responder a los problemas críticos. Es necesario contar con un plan de recuperación ante desastres y seguirlo en caso de fallos o pérdida de datos para garantizar la continuidad operativa y la recuperación ante desastres para cumplir los RTO y RPO de su organización. Siempre hay que tener backups preparados para la recuperación de máquinas o datos de aplicaciones específicas.

Algunos programas de supervisión incluyen funciones completas de protección de datos y recuperación ante desastres, como la solución de supervisión informática de NAKIVO. Los fallos del servidor y la pérdida de datos pueden producirse en todo tipo de entornos. Hacer backup de datos le permite proteger sus datos, recuperarlos en caso de fallo y restablecer las cargas de trabajo con un funcionamiento normal en poco tiempo. NAKIVO Backup & Replication es una solución universal de protección de datos que permite hacer backups de máquinas físicas Linux y Windows, VMware vSphere VMs, Microsoft Hyper-V VMs, Amazon EC2, Nutanix AHV, y Microsoft 365.

1 Year of Free Data Protection: NAKIVO Backup & Replication

1 Year of Free Data Protection: NAKIVO Backup & Replication

Deploy in 2 minutes and protect virtual, cloud, physical and SaaS data. Backup, replication, instant recovery options.

Artículos recomendados