5 votos

Problemas con mi poweredge 2970

La empresa para la que trabajo acaba de comprar 3 PowerEdge 2970 servidores y todos ellos tienen el mismo problema.

  1. Es este servidor vale la pena comprar o son los problemas que vienen con él a hacer que no merece la pena?
  2. Hay un montón de problemas con el uso de una procesadores AMD (es un Opteron)?
  3. Son ustedes capaces de fijar el punto de que el problema si me dan detalles sobre los errores que me meto en el caso de los registros?

Aquí está el problema:

1.El poder en el servidor. Se arranca con el sombrero rojo de la pantalla de presentación.
2.En el medio de arranque se bloquea el servidor con los siguientes errores:

-CPU Machine Chk: processor sensor, transition to non-recoverable was asserted
-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 1 FUNC 0)

Entonces traté de actualizar el bios y el BMC, pero el problema sigue ahí. Después de eso traté de actualizar el sistema operativo (que tenía para empresas de red hat 5.1) para red Hat 5.3 Había algo extraño en ella. Me arranca el servidor con la generación y la utilidad de actualización seleccionado, a continuación, instalar el SO. He seleccionado red hat enterprise 5.3 x86_64. Preguntó por mí para la versión x86_64 medios de comunicación por lo que he puesto en el disco que dijo : complementario disco 1 de 1 para las de 64 bits AMD64 e Intel 64. Se dijo mal disco. Así que he usado el disco que dijo: disco 1 de instalación de 1 de 64 bits de Intel Itanium. Mi conjetura es que eso es el disco que necesitaba usar todo el tiempo.

Después de esto, el sistema fue capaz de arrancar hasta la línea de comandos de inicio de sesión de pantalla. Yo loggued en la que escribió : startx para entrar en la interfaz de usuario del entorno. En ese momento menos de una página de texto con desplazamiento rápido y el servidor se estrelló sin mostrar nada gui relacionados.

En ese momento tuve en 2 diferentes errores(observe el dispositivo es de 4 ahora, va a comprobar que el dispositivo es):

-PCI Parity Err: critical event sensor, PCI PERR (BUS 0 DEVICE 4 FUNC 0)
-PCI Sytem Error:critical event sensor, PCI SERR(BUS 0 DEVICE 4 FUNC 0)

Así que hoy la tecnología chico vino con un montón de piezas y, básicamente, se reconstruye el servidor (tarjeta vertical PCI, tarjeta madre, Dimm, una tarjeta SAS y algo más que cant en la parte superior de mi cabeza)en el sitio, pero después de que los problemas eran aún peor. Algunos de estos errores fueron(mente en ese momento era volver a poner algunas de las piezas originales, así que las cosas se pusieron sucio):

ECC uncorr Err: memoria del sensor, incorregibles ECC (DIMM1 DIMM2) se afirmó.
E1231 1.2 V HT potencia del núcleo GD
E1911 <3 ERRORES de registro
E1000 a prueba de fallos

Mañana él va a volver con una fuente de alimentación...

ACTUALIZACIÓN: Parece que cant residuos más tiempo en esto. Estamos llamando a la gente de ventas y pidiendo nuevos servidores.

3voto

Levi De Haan Puntos 18

Me he topado con problemas similares con Dell de la tarde. El soporte técnico no parece ser capaz de asociar directamente los errores con la parte que no funciona. Un montón de las veces acaba de enviar lo que me gusta llamar "El No tengo Idea de Qué hay de Malo Partes Pack". Generalmente se compone de placa base, tarjeta vertical PCI, la sustitución de la memoria y, a veces, un reemplazo de la CPU y de la controladora RAID.

Una cosa que a menudo se olvide de reemplazar es el tubo para el integrado de tarjeta PERC. Y he visto que ese sea el problema un par de veces.

De todos modos como ya he comentado antes, a menos que usted está en una carrera real para implementar estos servidores me pondría en contacto con Dell atención al cliente y exigir que todos los tres servidores reemplazado o reembolsado.

2voto

Zypher Puntos 26466

Yo lo he visto con malos tarjetas RAID antes. Yo sugeriría

1) tirar todas las cartas que pueda y ver si se puede arrancar y lo que es más importante:

2) LLAME A DELL. Su empresa de soporte técnico es muy bueno, y honestamente suena como que tiene un error de hardware.

1voto

gharper Puntos 3916

En cuanto a tu pregunta...
1) Que es completamente subjetivo
2) Opterons debe ser tan fiable como una pieza de Intel
3) tendrás Que preguntar a la pregunta primero

En cuanto al problema que has publicado, me gustaría empezar por correr Memtest si desea solucionar problemas (suena como un mensaje de error de memoria - el bus PCI y los números de dispositivo debe decirle específicamente). Por otro lado, me gustaría simplemente insistir en que el apoyo de representantes de arreglar el problema con los servidores en los que se vendió.

1voto

Matt Puntos 6166

Bueno para descartar el sistema operativo en primer lugar. Trate de instalar windows server. Windows tiene la más amplia compatibilidad con el controlador. Si windows no puede instalar incluso entonces usted sabe con seguridad que es probable que haya algunos fallos de hardware. Si usted no tiene una copia de ese entonces ubuntu server funciona bien en la mayoría del hardware por lo que yo sé.

Tuvimos un servidor que se negó a instalar uno muy común distro de linux. Tan pronto como puse ubuntu server en la misma, se funcionado a la primera. Quizás en algún punto de Redhat fue de allí y de trabajo, sino una actualización del kernel ha tenido éxito?

También querrás probar configuración de la bios a los valores predeterminados. También pruebe a reiniciar el RAID y unidades de configuración de copia de seguridad de nuevo.

1voto

dyasny Puntos 11858
  1. Llame a Dell - si el servidor está bajo garantía, debe solucionar estos errores fácilmente
  2. Si usted no tiene una garantía, usted puede llamar a Dell para solucionar los problemas y determinar las partes que necesitan reemplazo
  3. Normalmente, este error indica un problema con la CPU o de la MB. Si usted tiene más de una CPU en allí, intente iniciar el sistema con una sola CPU en el 1er zócalo. Si eso no funciona, intente lo mismo con otra CPU. También, en general siempre es bueno tira el sistema a un mínimo de hardware de configuración que le permitirá POST, que significa quitar todos los discos Duros, los controladores y periféricos, dejar una única CPU y la memoria DIMM en el interior, y si eso no ayuda, usted probablemente tiene un MB problema. Si min2POST config PUESTOS correctamente, comenzar a agregar las piezas de nuevo, hasta que se ejecute en el error - que le ayudará a identificar la parte incorrecta

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: