44 votos

HP ProLiant DL360 G7 se cuelga en la "Energía Térmica y la pantalla" Calibración

Tengo un nuevo HP ProLiant DL360 G7 sistema que está exhibiendo difícil de reproducir el problema. El servidor se bloquea aleatoriamente en el "Poder y la Térmica de Calibración en Progreso..." en la pantalla durante el proceso de postproducción. Esto normalmente después de un arranque en caliente/reinicio del sistema operativo instalado.

enter image description here

El sistema de puestos indefinidamente en este punto. La emisión de un reinicio o arranque en frío a través de la OIT 3 controles de energía hace que el sistema arranque con normalidad, sin incidentes.

Cuando el sistema está en este estado, la OIT 3 interfaz es completamente accesible y todo el sistema de indicadores de salud están bien (todo verde). El servidor se encuentra en un clima controlado en el centro de datos con conexiones de alimentación de la PDU. La temperatura ambiente es de 64°F/17°C. El sistema se coloca en un espacio de 24 horas componente de prueba de bucle antes de la implementación sin fallos.

El principal sistema operativo para que este servidor VMWare ESXi 5. Inicialmente se trató de 5.0 y posterior 5.1 construir. Ambos fueron desplegados a través de PXE boot y kickstart. Además, estamos probando con metalicos Windows y Linux Red Hat instalaciones.

HP ProLiant sistemas tienen un conjunto completo de opciones de BIOS. Hemos probado con la configuración predeterminada además de la Estática de alto perfil de rendimiento. Yo lo he desactivado el arranque de la pantalla de presentación y acaba de obtener un cursor parpadeante en ese momento frente a la pantalla de arriba. También hemos probado algunos de VMWare de"mejores prácticas" para la BIOS config. Hemos visto un asesor de HP que parece esbozar un problema similar, pero no soluciona nuestro problema específico.

La sospecha de un problema de hardware, tuve el proveedor envíe un sistema idéntico para entrega en el mismo día. El nuevo servidor era totalmente idéntico a construir con la excepción de los discos. Nos mudamos de los discos del servidor antiguo al nuevo. Hemos experimentado el mismo azar arrancar problema en el hardware de reemplazo.

Ahora tengo dos servidores que se ejecutan en paralelo. El problema golpea al azar en caliente-las botas. Frío botas no parecen tener el problema. Yo estoy buscando a algunos de los más esotéricos de la configuración del BIOS como desactivar la función Turbo Boost o desactivación de la función de calibración de potencia completo. Yo podría tratar de estos, pero que no debería ser necesario.

Los pensamientos?

--edit--

Detalles del sistema:

  • DL360 G7 - 2 x X5670 Hex-Core CPU del
  • 96GB de RAM (12 x 8 GB de Bajo Voltaje de los módulos Dimm)
  • 2 x 146GB 15k Unidades de disco Duro SAS
  • 2 x 750 w fuentes de alimentación redundantes

Todos los firmware para arriba-a-fecha de la más reciente de HP Service Pack para ProLiant lanzamiento en DVD.

Llamar a HP y la pesca de arrastre de la interwebz, he visto menciones de un mal de la OIT 3 de la interacción, pero esto sucede con el servidor en la consola física, también. HP también sugirió que la fuente de alimentación, pero esto es en un centro de datos de la cremallera con éxito los poderes de otros sistemas de producción.

¿Hay alguna posibilidad de que esto podría ser una mala interacción entre la baja tensión de los módulos Dimm y la de 750W fuentes de poder? Este servidor debe ser compatible con la configuración.

47voto

Tina Puntos 21

Así que, después de llevar un tercer sistema en la mezcla, y experimentando el mismo problema, se comenzó a cuestionar el medio ambiente. Cavé una copia de los Servidores ProLiant de HP Solución de problemas de la Guía y encuentra el POST problemas de diagrama de flujo se muestra a continuación.

enter image description here

Cuidadosamente se ejecuta a través de los pasos en el gráfico, nos dimos cuenta de que la única constante a través de todos los servidores fue un conmutador KVM conectado con el centro de datos crash cart. Este era un consumidor de clase compatible con USB KVM. Como por el destacado nodo en el diagrama de flujo, ¿tiene buena conocida KVM?, Yo no podía responder de forma concluyente.

Así, hemos desconectado de los servidores al conmutador KVM y corrió a un fichero automatizado de arranque, sleep 300; reboot de la secuencia en rc.local. Los servidores no tenía problemas con esto, independientemente de la normal DIMM de bajo voltaje de los módulos Dimm, fuente de alimentación, potencia, etc.

Este fue el resultado de una mala interacción con un USB KVM switch. En virtud de que esta fue la consola, aseguró veríamos el fracaso si estábamos buscando. La auto-realización de...

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: