10 votos

¿Cuál es la primera cosa que se puede comprobar cuando una virgen servidor unix comienza volviendo loca?

Así que usted tiene esta perfectamente configuración de servidor unix y es super rápido y funciona a hincharse y a todo lo que es grande para los meses, y de repente todo tipo de errores extraños comienzan a aparecer para una variedad de servicios diferentes y ninguno de ellos hacer un montón de sentido en su propia, mucho menos juntos.

¿Qué son los hoteles de cosas que usted debe comprobar tan pronto como reciba su sesión de ssh a la máquina?

Estoy especialmente interesado en el trauma historias que ponen de relieve no evidente comandos y situaciones raras, pero supongo que lo obvio varía de persona a persona, por lo que nos puede dar una lista de todos ellos libremente.

19voto

Avery Payne Puntos 11379

De primer Orden: Es sensible?

Si usted no puede iniciar sesión, hay problemas más grandes en marcha. Esto generalmente viene en dos sabores: error de hardware, de software y de fracaso. Ambos son potencialmente catastróficos. Para evitar DFA errores, compruebe el hardware general de salud de primer - a simple vista-más generalmente será suficiente.

De segundo Orden: Son el sistema subyacente de estructuras en buen estado de salud y el orden?

Verificación de Oro "de la Tríada" de los sistemas:

  • Suficiente tiempo de CPU es libre para el procesamiento de
  • Suficiente espacio de disco libre para el almacenamiento
  • Hay suficiente memoria libre para las cargas de trabajo

En las últimas décadas, la tríada se ha convertido en un "quad", que incluye las comunicaciones (redes):

  • La conectividad es funcional, capacidad de respuesta, y que tiene capacidad de

Tercer Orden: ¿Cuál es la gravedad de la cuestión?

¿Qué programas o servicios que se vean afectados? En orden decreciente de gravedad, es sistémica (en todo el sistema), agrupado (un grupo de programas), o aislado (un programa específico)? Grupos de programas normalmente se tropieza, porque un determinado subyacente servicio ha fallado o se ha ido de responder. Los problemas sistémicos son a veces relacionadas con esta (creo DNS o IP conflictos), pero sabiendo dónde buscar es generalmente la clave.

Cuarto Orden: Son herramientas de diagnóstico que faciliten datos relevantes para el problema? Ahora que usted tiene información acerca de la salud del sistema (de segundo orden) y qué partes de él están experimentando problemas (tercera orden) esto debería hacer que sea fácil para estrechar abajo donde está el problema.

Mensajes de Error o los archivos de registro debe ser un común punto de referencia en este viaje.

Problemas de la CPU:

  • loadav
  • top
  • strace

Espacio en disco / I-O cuestiones:

  • df
  • du
  • lsof
  • iostat
  • vmstat

Problemas de memoria:

  • gratis

Problemas de conectividad:

  • ping
  • ruta (y arp y rarp y amigos)
  • iptables, ipchains, ipfw (para aquellos BSD personas)
  • traceroute o mtr
  • los ejércitos, nslookup, o cavar
  • netstat

Queja más común (que oigo):

El correo electrónico es el hecho de no prestar la suficiente rapidez (más de un minuto de enviar a la recepción por el destinatario) o, el correo electrónico es rechazar mi intento de enviar. Esto generalmente se reduce a la tasa de limitador en Postfix patadas durante un spam de la tormenta, lo que repercute en la capacidad para aceptar la entrega interna.

Un ejemplo de la vida real:

Sin embargo, este no es siempre el caso. Una vez, el problema persistió, independientemente de que se reinicie el servicio; así que después de 3 minutos, era el momento de empezar a mirar a su alrededor. CPU estaba ocupado, pero por debajo de 100%, sin embargo, la carga se había elevado a 15 en un cuadro de 2 núcleos, y amenazaba a ir más alto. El comando top reveló que el sistema de correo estaba en sobremarcha, junto con el correo de escáner, pero no hubo amavis hijo procesos para ser visto. Esa fue la pista de la cola de correo de comandos (mailq) mostró algunas de 150 mensajes no entregados, más del 80% de los cuales eran spam, en los últimos 20 minutos. Un rápido ajuste a la baja de la tasa de limitador (que reduce la velocidad de consumo del spam de la tormenta), mientras que aumenta el número de niños analizador de correo electrónico de procesos (para ayudar a que el proceso de la cartera), seguido de un reinicio del servicio, se resuelve el problema y el sistema fue capaz de completar las entregas en un corto período de tiempo.

La causa del problema era que el amavis proceso padre había keeled más muertos, y los procesos hijo había eventualmente, todos siguen su curso (se auto-terminar después de tantos análisis para evitar pérdidas de memoria). Así que hubo SMTP procesos en postfix tratando de ponerse en contacto con...el aire...para hacer el spam/detección de virus que se necesitaba. La distro que yo estaba usando había fuera de fecha, los paquetes que nunca se actualiza; como la instalación debió ser reemplazado en un año o así, yo manualmente "anuló" la instalación de la última versión, que incluye varias correcciones de errores. Yo no he tenido el mismo problema desde entonces.

5voto

Daniel A. White Puntos 180

por lo general "que", seguido por "último"

un montón de cuestiones en las máquinas que he gestionado a través de los tiempos se han dado de una forma muy laxa definición de "virgen", a menudo alguien ha hecho algo :)

4voto

Rob Allen Puntos 7768

Bueno, voy a empezar.

Esta un poco a mí una vez, me pasé horas y horas tratando de miles de cosas diferentes, la desactivación de los servicios de aquí y de allí, reiniciar, etc. ¿Cuál fue el problema? Totalmente fuera de espacio en disco.

Así que, aquí está la primera cosa que me escriba cuando la depuración de un de repente preocupado servidor:

df -h

Nunca se me olvida que ahora. Sólo me salvó un montón de esfuerzo en vano. Pensé en compartir.

2voto

Chealion Puntos 762

parte superior (o htop)

1voto

Some French Guy Puntos 96

Si se puede yo siempre trate de apagar todas las Nic de la barra de la administración.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: