14 votos

¿Hardware RAID controlador caché fracaso frecuencia/duración de la batería?

Estoy en un entorno que contiene muchos de Supermicro servidores equipados con Adaptec y LSI MegaRAID de RAID de hardware de los controladores. Estos controladores contienen batería de copia de seguridad los módulos de memoria caché para ayudar a aumentar el rendimiento de escritura y proteger los datos en tránsito.

Una frecuente de problemas de soporte técnico es de la controladora RAID de fallo de batería. Esto cambia la matriz de la escritura a la escritura a través de la modalidad. Claramente hay un negativo impacto en el rendimiento a medida que el sistema se ejecuta con degrada la velocidad de escritura. Esta situación persiste hasta un intervalo de tiempo de inactividad puede ser establecido para apague el sistema y vuelva a colocar la batería.

Esta es una muy simple operación de rutina para nosotros; casi semanalmente a través de varios miles de servidores físicos... incluso Tenemos estaciones de carga en el lugar de preparación de reemplazo de baterías, por lo que pueden ser intercambiadas sin un ciclo de carga.

Tal vez estoy echado a perder por una larga historia con los servidores ProLiant de HP y Smart Array controladores RAID, pero HP systems normalmente tenía la batería vida útil de 4 a 6 años. Finalmente se eliminó el uso de RAID baterías alrededor de 2009. Ellos fueron reemplazados con supercapacitor-copia de los módulos de memoria (flash-caché de escritura con respaldo, o FBWC) y no requieren de sustitución, eliminación o un largo inicial del ciclo de carga.

Ya veo que el controlador y el controlador de LSI de la batería errores que a veces se producen en los sistemas que han estado en servicio por menos de 12 meses, me pregunto si esto es común en otros entornos.

Si esto es común, ¿cómo otros grandes entornos de servidor de manejar esto?

  • Consejos y trucos para el manejo de la batería RAID reemplazos?
  • Hay parámetros de configuración que pueden ayudar?
  • Cómo perturbador es que esto de las operaciones en su entorno?
  • Podría pobres chasis de enfriamiento y la temperatura sea un factor?
  • Estamos haciendo algo mal?
  • Dell PERC controladores son hechas por la LSI. Hacer de Dell entornos de experiencia en el mismo corto de batería vidas?

LSI en la documentación del producto que se propone una nueva generación de baterías que pueden durar más tiempo en el servicio de 1 año. enter image description here

HP ProLiant DL585 G2 server con 1000+ días el tiempo de actividad y un feliz batería RAID...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

9voto

the-wabbit Puntos 28168

Sospecho que su Supermicros se rompen de una manera u otra - posiblemente de los paquetes de baterías son el sobrecalentamiento. Más reciente LSIs informe de la temperatura a través de MegaCLI - usted desee supervisar este valor en los servidores de los que necesitan reemplazo.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

He visto un par de Dell y Fujitsu sistemas LSI BBU controladores, ninguno de ellos había anual paquete de batería de repuesto (salvo que se atornilla el pack por la profundidad de descarga). El típico tiempo de vida ha sido de alrededor de 3 a 5 años.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: