21 votos

¿Lo estoy buscando en una solución de monitoreo?

Esta es una Pregunta canónica sobre Software de monitoreo.

También relacionado: qué herramienta usas para controlar sus servidores?

Tengo que controlar mis servidores; ¿Qué necesito tener en cuenta al decidir sobre una solución de seguimiento?

19voto

Kyle Brandt Puntos 50907

Hay un montón de soluciones de monitoreo de allí. Cada uno tiene sus preferencias y cada empresa tiene sus propias necesidades, de manera que no hay respuesta correcta. Sin embargo, me puede ayudar a averiguar lo que usted puede ser que desee buscar en la elección de una solución de monitorización.

¿Cuáles son los Sistemas De Vigilancia?

En general, los sistemas de monitoreo de servir a dos propósitos principales. La primera es la de recoger y almacenar los datos en el tiempo. Por ejemplo, puede que desee para recoger la utilización de la CPU y la gráfica a lo largo del tiempo. El segundo propósito es el de alerta cuando las cosas son o no responde o no dentro de ciertos umbrales. Por ejemplo, usted podría querer alertas si un servidor no puede ser alcanzado por los pings o si la CPU está por encima de un determinado porcentaje. También hay registro de sistemas de monitoreo, tales como Splunk, pero estoy tratando a los que como separado para esto.

Estas dos funciones principales a veces vienen en un solo producto, otras veces más común es tener un producto dedicado para cada propósito.

¿Cuáles son los principales Componentes y Características de los Sistemas de Monitoreo?

Sondas:
Todos los sistemas de control requieren de algún tipo de sondeo para recoger los datos. No todos los datos se recogen de la misma manera. Usted debe buscar en su entorno y decidir qué datos se necesitan y cómo pueden ser recolectados. A continuación, asegúrese de que el sistema de monitoreo que usted elija apoya lo que usted necesita. Algunos métodos comunes incluyen:

  • SNMP (Simple Network Management Protocol)
  • WMI (Instrumental de Administración de Windows)
  • Ejecución de secuencias de comandos (Por ejemplo, ejecutar una secuencia de comandos en la máquina que se va a supervisar o ejecutar un script desde el cuadro de supervisión mismo que utiliza su propio método de votación). Estos pueden incluir cosas como Scripts de Bash, Perl Scripts ejecutables y Scripts de Powershell
  • Monitoreo Basado En Agentes. Con estos un proceso se ejecuta en cada cliente y recopila los datos. Este dato es empujado a la vigilancia del servidor o el servidor de supervisión de las encuestas de la agente. Algunos administradores están de acuerdo con los Agentes, a otros no les gusta ya que puede dejar una huella más grande en el servidor que está siendo monitoreado.
  • Centrado Api (es decir, la API de VMWare o de la capacidad para ejecutar consultas SQL)

Si usted tiene en su mayoría un SO en su entorno o sistema operativo principal, algunos sistemas podrían tener más opciones que otros.

Configuración:
En los sistemas de monitoreo tiende a ser un montón de reutilización de objetos. Por ejemplo, que desea controlar una determinada aplicación, tales como Apache o IIS en un grupo de servidores. O desea que determinados umbrales se aplican a los grupos de servidores. Usted también podría tener ciertos grupos de personas a estar "en guardia". Por lo tanto, un buen sistema de plantillas es vital para un sistema de monitorización.

La configuración se realiza generalmente a través de una interfaz de usuario o archivos de texto. La opción de interfaz de usuario en general será más fácil, pero los archivos de texto tienden a ser mejor para su reutilización y variables. Por lo que dependiendo de su personal de TI puede preferir la simplicidad por encima de la potencia.

Interfaz De Usuario:
La interfaz más comunes para los sistemas de monitoreo en estos días es una interfaz web. Algunas cosas a evaluar en lo que respecta a la interfaz de la web son:

  • Las buenas descripciones
  • Buen detalle de páginas
  • Velocidad (Cuando usted necesita para encontrar información en modo de crisis una interfaz lenta puede ser muy frustrante
  • La sensación General. Usted va a pasar mucho tiempo en la interfaz, si se siente torpe de su personal de TI que se siente resistente para su uso
  • La personalización. Cada organización tiene ciertas cosas que son importantes, y otras cosas que no son. Es importante ser capaz de personalizar a sus necesidades

Alerta De Motor:
La alerta motor tiene que ser flexible y confiable. Hay un montón de diferentes maneras de ser notificado, incluyendo:

  • SMS
  • Correo electrónico
  • Teléfono
  • Otras cosas como IM/Jabber

Otras características a tener en cuenta son:

  • La escalada (Notificar a la persona, si la otra persona no ha reconocido o fija de la alerta)
  • Las rotaciones y los Cambios
  • Grupos (Ciertos grupos deben ser notificados de ciertas cosas)

Es importante confiar en que cuando algo sale mal, usted recibirá la alerta. Esto se reduce a dos cosas:

  1. Un sistema fiable
  2. Una advertencia de libre configuración. En los sistemas de monitoreo no es raro pensar que usted debe recibir una alerta, pero debido a algunos detalles en la configuración de la alerta no fue ejecutado.

Almacén De Datos:
Si el sistema recoge y almacena los datos (es decir, sistemas que incluyen gráficos) que el sistema almacena los datos. Un tipo muy común de aplicación para el almacén y la representación gráfica es la RRD, por ejemplo.

Algunas de las características a buscar en el almacén de datos son:

  • Raw acceso a los datos. Esto puede ser valioso para el desarrollo o en contra de la creación de gráficos personalizados con algo como Excel.
  • La escalabilidad. Dependiendo de cuánto usted los datos que recopilamos puede agregar para arriba rápidamente, si usted va a recoger una gran cantidad que usted quiere asegurarse de que se escala.

Representación Gráfica De La Biblioteca:
Los gráficos pueden ser útiles para identificar rápidamente las tendencias y dar contexto al estado actual de algo basado en su historia. Incluyendo algunos de tendencias que pueden ser útiles para predecir las cosas antes de que sucedan (es decir, quedando sin espacio en disco). Asegúrese de que los gráficos le dará la información que usted piensa que usted va a necesitar de una forma clara.

Controles De Acceso:
Si usted tiene una gran organización puede necesitar controles de acceso, debido a que ciertos administradores sólo debe ser capaz de ajustar ciertas cosas. También puede ser que desee a la vista del público los cuadros de mandos. Si esto es importante que usted debe asegurarse de que el sistema de supervisión de los controles que se necesitan.

Otras Características

Informes:
Un sistema que proporciona una buena informes pueden ayudar a identificar lo que necesita ser mejorado a través de largos períodos de tiempo. Por ejemplo, se puede dar una buena respuesta a cosas como "¿qué sistemas de bajar más?". Esto puede ser importante cuando usted está tratando de convencer a la gerencia a gastar dinero en ciertas cosas -- de negocios como evidencia.

Características Especiales:
Algunos sistemas de seguimiento son específicas de productos o tiene más apoyo que otros. Por ejemplo, si la cosa principal que usted necesita monitor de SQL server, o si usted hace un uso intensivo de los productos de VMWare debe ver lo bien que estos son compatibles.

Predefinidos De Monitoreo De Las Plantillas:
Un sistema que viene con un montón de plantillas predefinidas (o tiene una base de usuarios que ha creado muchas plantillas) puede ser un gran ahorro de tiempo.

Descubrimiento:
Si usted tiene una gran o entorno cambiante. Algunos sistemas ofrecen la posibilidad de agregar nuevos sistemas a través de una API o la ejecución de los análisis para encontrar nuevos servidores o componentes.

Control Distribuido:
Si tiene varios lugares para monitorear, puede ser útil disponer de sondas de monitoreo en cada ubicación en lugar de un montón de independiente son los sistemas de vigilancia a través de la WAN.

Algunos De Los Populares Sistemas De Monitoreo

Hay un montón de sistemas de monitoreo por ahí. Tenemos una lista con un resumen en esta vieja pregunta. Para una rápida referencia a algunos de los que me escuchan más acerca de:

  • Nagios
  • Cactus
  • OpenNMS
  • Los Vientos Solares
  • Diversos sistemas de Monitoreo basados en la nube
  • Microsoft System Center

Cómo Decidir con base en lo anterior

La razón por la que no puedo decirle lo que uso es debido a que cada organización tiene sus propias necesidades. Si usted desea hacer la elección correcta, usted debe pensar a través de todos los componentes anteriores, y averiguar qué características son importantes para su organización. Luego de encontrar un sistema o sistemas que pretenden ofrecer lo que usted necesita y probarlos. Algunos de estos cuestan un poco, mucho, o son gratuitos. Teniendo todo esto en cuenta, puede, a continuación, hacer su elección. Por lo que he utilizado todos ellos están lejos de ser perfecto, pero al menos se puede intentar conseguir algo que se adapte.

8voto

J Adams Puntos 126

Es útil distinguir entre la vigilancia y la alerta. Monitoreo de medios de recolección de datos y elaboración de gráficos. Alerta significa que me envíe un SMS cuando un servidor se cae en el medio de la noche.

Nagios es para las alertas. Cactus y Munin son para el monitoreo. Otros productos de combinar las dos funciones. Zenoss y Zabbix, son algunos ejemplos.

Me gustaría empezar por responder a algunas preguntas:

¿Usted necesita para controlar los servidores, dispositivos de red, aplicaciones, o las tres cosas?

Hay limitaciones en lo que los métodos que puede utilizar para supervisar? Puede instalar seguimiento a clientes como NRPE en los servidores, o va a utilizar SNMP, o tal vez ambas cosas?

Que va a utilizar los gráficos, y que va a utilizar las alertas? ¿Qué te gustaría que el resultado final? La mirada y la sensación de la interfaz de la materia (la gente de negocios con, o sólo personal técnico?)

¿Cuáles son sus recursos, tanto en términos de tiempo, habilidades y hardware? ¿Tienes al menos modesta capacidad de secuencias de comandos? ¿Necesita un fuera-de-la-caja de solución?

En mi opinión, la primera regla del tanto de las alertas y la supervisión deben ser Keep it Simple! Una organización puede vivir o a morir en cómo alertas y recopila datos, y la mayoría de las veces se complican en su propia cuenta de todos modos. Comience con los fundamentos y construir desde allí.

4voto

mogsie Puntos 240

tl;dr

Piense acerca de los servicios que el software proporciona, enviar alertas cuando estos servicios no, o cuando el riesgo de un fracaso de estos servicios aumenta.

Acuerdos De Nivel De Servicio

La teoría detrás de las estrategias de seguimiento es de lazo de seguimiento y alertas a algún tipo de acuerdo de nivel de servicio. Después de todo, usted desea ser alertado del hecho de que usted está perdiendo dinero, no necesariamente que hay un pico en el número de conexiones TCP a nji0019.myserver.com. Existen diversas herramientas que le dará toneladas de alertas, definir las dependencias entre las alertas, pero muchas de estas comprobaciones no son directamente relevantes para el servicio que usted proporcione a alguien.

El incumplimiento de servicio

Identificar los servicios que se proporcionan, tales como la capacidad para servir a un sitio web, y la capacidad de modificar el sitio web (por ejemplo, un CMS de algún tipo). Los que deben ser controlados (por ejemplo, mediante el seguimiento que se puede obtener de la página web, y que puede). El fracaso de estos dos Servicios (utiliza aquí con un capital de S) debe desencadenar una alerta para notificarle a usted.

Si es importante que el sitio responde dentro de un plazo razonable de tiempo, que también debe activar las alertas. Una especie de "incumplimiento de SLA" si se quiere.

Aumento del riesgo

Generalmente hay un riesgo inherente de un Servicio en su defecto, y con la frecuencia suficiente que el riesgo es mitigado por el hecho de que introducir la redundancia, por ejemplo, de un segundo servidor, o un esclavo de la base de datos, o extra tarjetas de red...

Cuando que la redundancia se pierde, el Servicio sigue siendo bueno, pero el riesgo de que el Servicio no se acaba de subir.

Esta es la segunda razón principal para activar las alertas; que la redundancia se ha ido (por ejemplo, que el segundo servidor de morir), o que hay un peligro inminente de que el riesgo va a aumentar (por ejemplo, el disco sólo tiene 500Mb a la izquierda, o disco tendencia indica que el disco se ve completo en alrededor de 5 horas).

¿Qué pasa con todos esos indicadores?

Pero check_mk me da 50-60 cheques por host, son todos estos inútiles?

No. Todo esto no significa que usted quiere deshacerse de la gran cantidad de comprobaciones automáticas de obtener, por ejemplo, con check_mk, pero esto significa que usted debe tratar de categorizar cada uno de los cheques en qué Servicio(s) puede verse afectada si algo llega a fallar.

Cuál es el Servicio que se verían afectados si la partición /var/ se llena? Cuál es el Servicio que se verían afectados si la interfaz eth0 es abajo? ... si de salida de las conexiones TCP son bloqueados por algún firewall? ... si el número de hilos que supera los 800? ... si la base de datos va hacia abajo?

Ejemplo

Tienes 2 servidores de web y un servidor de base de datos que sirve un sitio detrás de un equilibrador de carga no propio (por ejemplo, el ISP). El Servicio que brindan es el puerto 80 en los dos servidores, y que tienen un enorme caché que puede sobrevivir por ejemplo, el tiempo de inactividad de la base de datos (base de datos en un tercer servidor).

En este escenario, el completo fracaso de un servidor web no se traduciría en la zona de abajo. Lo que ha ocurrido es que la redundancia se ha ido así que el riesgo de fracaso acaba de subir. Que debe activar una alerta.

El fallo completo de la base de datos podría no afectar a la capacidad para servir en el sitio, debido a la bien afinada almacena en caché en el lugar; entonces, Esto no afecta el Servicio de servir al sitio web, pero puede afectar a un Servicio diferente, a saber, la actualización de la web, o la aceptación de las órdenes de...

Cada Servicio tiene su propio nivel de servicio que designa lo importante que es para restaurar el servicio o para evitar cortes del suministro eléctrico

Ser ágil

Cada vez que usted recibe una alerta, usted debe hacer una de las siguientes: - cambiar el sistema es monitoreado a solucionar el problema que causó la alerta (por ejemplo, reemplazar la unidad o reconfigurar logrotate o algo) - cambiar el sistema de supervisión para evitar la alerta de que se envió la próxima vez que surja la situación. (por ejemplo, cambiar los niveles de "libre en el disco" para que el disco se puede llenar hasta el 90% en lugar de sólo el 80%)

Mi propia experiencia

Yo soy todo familiarizado con Nagios y sus detallado de la configuración, y desde entonces se han enganchado en el Check-mk multisitio. Hace poco me enteré de que check_mk tiene este concepto de Inteligencia de Negocios (desde 1.11), que parece coincidir con esta forma de pensar. Se puede definir que los cheques en nagios son parte de un servicio más amplio y tienen reglas que definen el estado del "Servicio" como una función de la situación de muchas comprobaciones, que se agregan a la peor o mejor estado.

0voto

Si usted está considerando monitorización del sistema remoto, entonces sería una buena idea para buscar las localizaciones reales se realizan pruebas de. Problemas de conectividad no son una cosa del pasado y si su hardware está cumpliendo un grupo en una región específica, deberías para asegurarse de que sus recursos están disponibles en ese lugar en particular.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: