10 votos

¿Cómo puedo saber si un disco está fallando en ESXi / ¿qué hacen estos errores significan?

Tengo un servidor con VMware ESXi v4.1.0 348481. Tiene un hardware RAID 10 y un SATA unidad de copia de seguridad. Tengo una máquina virtual en ejecución que tiene su inicio principal vmdk en el RAID10, almacén de datos, y un 600 GB vmdk en el SATA unidad de copia de seguridad del almacén de datos. La máquina virtual se ejecuta linux Debian con el kernel de FreeBSD, y los usos de ZFS para la unidad de copia de seguridad.

EDIT: La unidad es no conectado directamente a la máquina virtual. Es utilizado como un Almacén de datos VMware, y la VM tiene un vmdk en el SATA de la unidad de almacén de datos. El almacén de datos es no completo (sólo el 65% completo)

He iniciado sesión en el servidor mediante SSH y se encontró que la última noche de copia de seguridad se colgó, y zfs list o zpool list tanto colgado. Así que abrí la consola virtual en ESXi y fue triste ver:

This screenshot makes me sad

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Traté de reiniciar la máquina virtual y he recibido un mensaje de que el sistema va hacia abajo para reiniciar y, a continuación, que se colgó. (^C aparece pero no mata shutdown). No puedo interrumpir o kill -9 el zpool list zfs list o rsync los procesos: no ocurre Nada cuando intento.

  1. ¿Esta ndicate la copia de seguridad de disco duro SATA está fallando? O podría ser simplemente una ESXi error?
  2. Cómo en el cliente vSphere podría yo decir si la unidad está fallando? Yo no veo ninguna indicación, todo en Hardware el Estado de Salud se ve bien, y no vi nada en el Almacenamiento de configuración.
  3. ¿Cómo debo proceder? Debo solo reinicio la máquina virtual?

ACTUALIZACIÓN: acabo de duro de reiniciar la máquina virtual. Después vino de nuevo en línea, la copia de seguridad zpool online, sin embargo:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Me estoy inclinando fuertemente hacia la sustitución de la unidad...

5voto

sysadmin1138 Puntos 86362

Los errores de hecho, indican que uno de los discos SATA se ha encontrado con bastante mala bloques para que se ejecute fuera de los bloques de la reasignación de espacio. Esa unidad es malo y debe ser reemplazado. No estoy seguro de que en el cliente vSphere de que la información que se muestra, pero el registro de las entradas son bastante claras.

Si el hardware lo permite, un hot-swap debe ser factible. De lo contrario, vas a tener que cerrar todo para que realice el cambio. Si que VM no ha de apagarse automáticamente después de 30 minutos, solo es tiempo de duro terminar. Es arriesgado, pero si de verdad es colgado no hay mucho para ella.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: