9 votos

¿Por qué un servidor de bloqueo de golpear a otros servidores fuera de la red?

Tenemos un par de docenas de Proxmox servidores (Proxmox se ejecuta en Debian), y una vez al mes, uno de ellos tendrá un kernel panic y bloquear. La peor parte de estos bloqueos es que cuando se trata de un servidor que está en un interruptor separado de la master del grupo, todos los demás Proxmox servidores en el interruptor que se deje de responder hasta que podamos encontrar el servidor que en realidad ha bloqueado y reiniciarlo.

Cuando se informó de este problema en el Proxmox foro, se nos informó de actualizar a Proxmox 3.1 y hemos estado en el proceso de hacer que en los últimos meses. Por desgracia, uno de los servidores que emigraron a Proxmox 3.1 encerrado con un kernel panic en viernes, y de nuevo todos los Proxmox servidores que estaban en el mismo interruptor eran inalcanzables a través de la red hasta que podamos localizar el servidor bloqueado y reiniciarlo.

Bueno, casi todos Proxmox servidores en el interruptor... me pareció interesante que el Proxmox servidores en el mismo interruptor que aún estaban en Proxmox la versión 1.9 no se vieron afectados.

Aquí está una captura de pantalla de la consola del servidor bloqueado:

enter image description here

Cuando el servidor bloqueado, y el resto de los servidores en el mismo interruptor que también la ejecución de Proxmox 3.1 se convirtió en inalcanzable y fueron arrojando los siguientes:

e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...

uname-a la salida de bloqueado servidor:

Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux

pveversion de salida-v (abreviado):

proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109

Dos preguntas:

  1. Alguna pista de lo que podría estar causando el pánico en el núcleo (ver imagen de arriba)?

  2. ¿Por qué habría de otros servidores en el mismo interruptor y la versión de Proxmox ser noqueado fuera de la red hasta que se bloquea el servidor se reinicia? (Nota: Hay otros servidores en el mismo interruptor que se estaban ejecutando las mayores 1.9 versión de Proxmox que no se vieron afectados. Además, ninguna otra Proxmox servidores en el mismo 3.1 grupo fueron afectados que no estaban en el mismo interruptor.)

Gracias de antemano por cualquier consejo.

2voto

martin Puntos 49

Estoy casi seguro que tu problema no es causada por un solo factor, sino más bien por una combinación de factores. Lo que los factores individuales son no es cierto, pero lo más probable es que uno de los factores es la interfaz de red o el conductor y el otro factor que se encuentra en el propio interruptor. Por lo tanto es bastante probable que el problema sólo puede ser reproducido con esta marca en particular de interruptor combinado con esta marca en particular de interfaz de red.

Parece el detonante para que el problema es algo que pasa en un servidor individual, que luego tiene un kernel panic que tiene efectos que de alguna manera se propagan a través del interruptor. Esto parece probable, pero yo diría que es casi tan probable es que el gatillo está en otro lugar.

Podría ser que algo está sucediendo en el interruptor o interfaz de red, que a su vez provoca el pánico en el núcleo y vincular los problemas en el interruptor. En otras palabras, incluso si el kernel no había tenido un kernel panic, el disparador puede muy bien haber derribado la conectividad en el conmutador.

Uno tiene que preguntarse, ¿qué podría pasar en el servidor individual, que podría tener este efecto en el resto de servidores. No debería ser posible, por lo que la explicación tiene que ver con una falla en algún lugar en el sistema.

Si era el enlace entre el servidor bloqueado y el interruptor que se hundió o se convirtió en inestable, que no debe tener ningún efecto sobre el estado de los vínculos con el resto de servidores. Si lo hace, que cuente como una falla en el interruptor. Y trafficwise, los otros servidores deberían ver un poco menos tráfico una vez que el servidor bloqueado perdido la conectividad, que no puede explicar por qué veo el problema de que hacer.

Esto me lleva a creer que un error de diseño en el conmutador es probable.

Sin embargo, un vínculo problema no es la primera explicación que uno busca cuando se trata de explicar cómo un problema en un servidor podría causar problemas a otros servidores en el interruptor. Una tormenta de broadcast sería la explicación obvia. Pero podría haber un vínculo entre un servidor que tiene un kernel panic y una tormenta de broadcast?

Multidifusión y los paquetes destinados a desconocidos en las direcciones MAC son más o menos el mismo tratamiento de las emisiones, por lo que una tormenta de estos paquetes cuentan así. Podría el paniced servidor esté intentando enviar un volcado de bloqueo a través de la red a una dirección MAC no reconoce el interruptor?

Si ese es el gatillo, entonces algo anda mal en el resto de servidores. Debido a que un paquete de tormenta no debería causar este tipo de error en la interfaz de red. Reset adapter unexpectedly no suena como un paquete de la tormenta (que sólo debe causar una disminución en el rendimiento, pero no hay errores como tales), y que no suena como un enlace problema (que debería haber resultado en los mensajes acerca de los enlaces que van hacia abajo, pero no el error que se está viendo).

Así que es probable que haya algún defecto en la interfaz de red hardware o controlador, que es activado por el interruptor.

Un par de sugerencias que pueden dar pistas adicionales:

  1. Se puede conectar otros equipos para el interruptor y ver lo que el tráfico que usted ve en el interruptor cuando el problema aparece (predigo que tampoco se calla o se ve un diluvio).
  2. Sería posible reemplazar la interfaz de red en uno de los servidores con una marca diferente utilizando un controlador diferente para ver cómo el resultado resulta diferente?
  3. Es posible sustituir uno de los interruptores con una marca diferente? Espero que reemplazar el interruptor va a asegurarse de que el problema no afecta a varios servidores. Lo más interesante es saber si también se detiene el kernel panics suceda.

1voto

aseq Puntos 2563

Me suena como un error en el controlador de ethernet o el hardware/firmware, siendo esta una bandera roja:

e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly

He visto antes, y puede golpear el servidor fuera de línea. No recuerdo exactamente si fue en intel tarjetas ethernet, pero yo lo creo. Incluso podría estar relacionado con un error en las tarjetas ethernet sí mismos. Yo recuerdo haber leído algo sobre el particular, intel ethernet tarjetas de tener tales problemas. Pero perdí el artículo del enlace.

Me imagino que el detonante de esta depende en parte de que el conductor (versión), el hecho de que una versión anterior del software funciona bien, parece confirmar que. Usted dice que el vendedor utilice su propio núcleo, intente actualizar el controlador de ethernet del módulo que se usa para su hardware de ethernet. Uno de su vendedor o uno de los oficiales de árbol de fuentes del núcleo.

Busque también en la unión de sus hardware de ethernet, normalmente un servidor tiene dos puertos ethernet, a bordo y/o agregar en la tarjeta(s). De esa manera si una tarjeta ethernet está teniendo este problema, el otro va a recoger. Yo uso la palabra "tarjeta", pero se aplica a cualquier hardware de ethernet de curso.

También reemplazar el hardware ethernet se puede arreglar. Sustituir o agregar una nueva (intel) tarjeta ethernet y utilizar en su lugar. Es probable que si el problema está en el hardware/firmware más reciente de la tarjeta tiene una solución (o más?).

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: