Tengo un HP ProLiant DL380 G7 servidor se ejecuta como un NexentaStor unidad de almacenamiento. El servidor tiene 36 GB de RAM, 2 LSI 9211-8i SAS de los controladores (no ampliadores SAS), 2 SAS sistema de unidades, 12 SAS unidades de datos, un hot-disco de repuesto, Intel X25-M L2ARC de caché y un DDRdrive PCI ZIL acelerador. Este sistema sirve NFS a varios hosts de VMWare. También tengo unos 90-100 GB de desduplicados de datos en la matriz.
He tenido dos incidentes en los que el rendimiento se derrumbó de repente, dejando a la VM huéspedes y Nexenta SSH/consolas Web inaccesible y que requieren un reinicio completo de la matriz para restaurar la funcionalidad. En ambos casos, fue el Intel X-25M L2ARC SSD que no se pudo o se "offlined". NexentaStor no pudo alertar a mí en la caché de falla, sin embargo el general ZFS FMA alerta fue visible en el (no responde) la pantalla de la consola.
El zpool status
de potencia mostraron que:
pool: vol1
state: ONLINE
scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:
NAME STATE READ WRITE CKSUM
vol1 ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
c8t5000C50031B94409d0 ONLINE 0 0 0
c9t5000C50031BBFE25d0 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
c10t5000C50031D158FDd0 ONLINE 0 0 0
c11t5000C5002C823045d0 ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
c12t5000C50031D91AD1d0 ONLINE 0 0 0
c2t5000C50031D911B9d0 ONLINE 0 0 0
mirror-3 ONLINE 0 0 0
c13t5000C50031BC293Dd0 ONLINE 0 0 0
c14t5000C50031BD208Dd0 ONLINE 0 0 0
mirror-4 ONLINE 0 0 0
c15t5000C50031BBF6F5d0 ONLINE 0 0 0
c16t5000C50031D8CFADd0 ONLINE 0 0 0
mirror-5 ONLINE 0 0 0
c17t5000C50031BC0E01d0 ONLINE 0 0 0
c18t5000C5002C7CCE41d0 ONLINE 0 0 0
logs
c19t0d0 ONLINE 0 0 0
cache
c6t5001517959467B45d0 FAULTED 2 542 0 too many errors
spares
c7t5000C50031CB43D9d0 AVAIL
errors: No known data errors
Esto no causa ninguna alertas desde dentro de Nexenta.
Yo estaba bajo la impresión de que un L2ARC fracaso no repercutiría en el sistema. Pero en este caso, seguramente era el culpable. Nunca he visto a ninguno recomendaciones de RAID L2ARC. La eliminación de las malas SSD completo del servidor me puso de nuevo corriendo, pero estoy preocupado por el impacto de la falla en el dispositivo (y tal vez la falta de notificación de NexentaStor así).
Editar - ¿Cuál es el actual mejor opción SSD para L2ARC caché de las aplicaciones de estos días?