10 votos

ZFS - impacto de fallo del dispositivo caché L2ARC (Nexenta)

Tengo un HP ProLiant DL380 G7 servidor se ejecuta como un NexentaStor unidad de almacenamiento. El servidor tiene 36 GB de RAM, 2 LSI 9211-8i SAS de los controladores (no ampliadores SAS), 2 SAS sistema de unidades, 12 SAS unidades de datos, un hot-disco de repuesto, Intel X25-M L2ARC de caché y un DDRdrive PCI ZIL acelerador. Este sistema sirve NFS a varios hosts de VMWare. También tengo unos 90-100 GB de desduplicados de datos en la matriz.

He tenido dos incidentes en los que el rendimiento se derrumbó de repente, dejando a la VM huéspedes y Nexenta SSH/consolas Web inaccesible y que requieren un reinicio completo de la matriz para restaurar la funcionalidad. En ambos casos, fue el Intel X-25M L2ARC SSD que no se pudo o se "offlined". NexentaStor no pudo alertar a mí en la caché de falla, sin embargo el general ZFS FMA alerta fue visible en el (no responde) la pantalla de la consola.

enter image description here

El zpool status de potencia mostraron que:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Esto no causa ninguna alertas desde dentro de Nexenta.

Yo estaba bajo la impresión de que un L2ARC fracaso no repercutiría en el sistema. Pero en este caso, seguramente era el culpable. Nunca he visto a ninguno recomendaciones de RAID L2ARC. La eliminación de las malas SSD completo del servidor me puso de nuevo corriendo, pero estoy preocupado por el impacto de la falla en el dispositivo (y tal vez la falta de notificación de NexentaStor así).

Editar - ¿Cuál es el actual mejor opción SSD para L2ARC caché de las aplicaciones de estos días?

17voto

PauleyB Puntos 11

Ed, hay varios que se puede utilizar desde relativamente razonable en precio bastante caro. Yo prefiero a desplegar de SAS SSD en todos los casos y han hecho muy bien con STEC y maleable. Ambos ofrecen ahora un disco MLC que trabajará famosamente cuenta con un dispositivo L2ARC. Aún no probado pero viene pronto está ofreciendo el SSD de Seagate SLC SAS 2.0 y rumorado "no es caro". Estad atentos...

-PB

10voto

Richard Elling Puntos 116

ZFS no hacer e/S de disco, controladores de dispositivo por debajo de ZFS hacer el disco I/O. Si el dispositivo no responde de manera oportuna, o como en este caso, afecta a todos los otros dispositivos en el expansor, entonces no es visible, como un fallo de ZFS. Todos ZFS ve es lento de I/O.

Hay un error en el procesador Intel X-25M firmware que afecta a su comportamiento durante cargas pesadas y pueden causar restablecimiento de las tormentas. Este problema afecta a todos los sistemas operativos y no puede ser resuelto en la capa del sistema operativo. Por favor, póngase en contacto con su proveedor de hardware para corrección o remediación.

Si una lectura es esperar a ser satisfechas por el L2ARC, entonces la lectura se trató de allí. ZFS, a continuación, se basa en la parte inferior de la capa de controladores para informar de un error. Para este caso, la unidad continúa reset y volver a intentar hasta por 5 minutos antes de la declaración de la I/O error, en función del controlador, el dispositivo y el tiempo de espera predeterminado de la configuración. Sólo después de que la capa inferior controladores de declarar la e/S como no se pudo ZFS de reintento en la piscina.

NexentaStor del volumen de verificación del disco y comprobar los corredores busca más mensajes de error y alertas vía correo electrónico y registro de errores. El disco-comprobar el corredor ha sido mejorado en la versión 3.1 para ayudar a alertar a usted específicamente de las condiciones expuestas por roto el firmware de las unidades Ssd.

Línea de base: el hardware es defectuoso y necesita ser arreglado o reemplazado.

3voto

zippy Puntos 1215

¿Se está conectando el SSD X 25-M a la placa base? Hay un problema conocido con Nexenta y acceder a la L2ARC sobre una placa base. Su mejor apuesta es conectar la unidad SSD directamente a un puerto SATA de la placa base. Asegúrese de que está configurado para utilizar también AHCI.

Si usted está ejecutando nada misión crítica en este servidor se cambio a un SSD SLC (como el X 25-E o un SSD STEC). Que siendo dicho, encontrará probablemente estaría bien con el X 25-M si no es.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X