8 votos

Linux Software Raid 10 colgado después de fallado 1 unidad, mdadm no me deja fuerza quitar el dispositivo defectuoso

Tengo un Linux software raid 10 consiste en la configuración de RAID 5 1s (Dos unidades por espejo de instalación) y un RAID 0 en todos los 5 de RAID 1 pares. Para probar que ninguna de las unidades se van a fallar rápidamente bajo carga he utilizado badblocks todo el RAID 0 con un destructivo modo de lectura/escritura.

Comando Badblocks: badblocks-b 4096-c 98304-p 0-w-s /dev/md13

Uno de los dispositivos de error y en lugar de la badblocks programa felizmente se mueven colgado. Si puedo ejecutar un comando de sincronización de esto también se bloquea. Primero quiero suponer que esto no es el comportamiento estándar de un dispositivo RAID 1. Si falla una de las unidades que todavía debe ser capaz de escribir en el dispositivo virtual de que las dos unidades de maquillaje sin un problema.

Así que procedí a fuerza de fallar la unidad y tratar de eliminarla. Me puede configurar la unidad para defectuoso sin ningún problema (sin Embargo, las operaciones de e / s son aún colgado). No puedo quitar el dispositivo por completo de la raid se dice que está ocupado. Mi suposición es que si me pueden echar de la raid totalmente IO va a continuar, pero que es sólo una suposición y creo que me estoy tratando con un error de tipo.

¿Qué está pasando aquí exactamente? Estoy en un irrecuperable irregular debido a un error?

El sistema se está ejecutando un kernel 2.6.18 por lo que no es exactamente nuevo, pero yo creo que dado que el software raid ha sido de alrededor durante mucho tiempo a cuestiones como estas no sucedan.

Cualquier idea es muy apreciada.

mdadm --detail /dev/md13

/dev/md13:

    Version : 00.90.03   Creation Time : Thu Jan 21 14:21:57 2010
 Raid Level : raid0
 Array Size : 2441919360 (2328.80 GiB 2500.53 GB)    Raid Devices : 5  

Total De Dispositivos : 5 Preferida Menor De Edad : 13 Persistencia : Superbloque es persistente

Update Time : Thu Jan 21 14:21:57 2010
      State : clean  Active Devices : 5 Working Devices : 5 

Error De Dispositivos : 0 Dispositivos Libres : 0

 Chunk Size : 64K

       UUID : cfabfaee:06cf0cb2:22929c7b:7b037984
     Events : 0.3

Number   Major   Minor   RaidDevice State
   0       9        7        0      active sync   /dev/md7
   1       9        8        1      active sync   /dev/md8
   2       9        9        2      active sync   /dev/md9
   3       9       10        3      active sync   /dev/md10
   4       9       11        4      active sync   /dev/md11

La falta de raid de salida:

/dev/md8: Versión : 00.90.03 El Momento De La Creación : Thu Jan 21 14:20:47 2010 Nivel Raid : raid 1 Tamaño de la matriz : 488383936 (465.76 GiB 500.11 GB) El Tamaño del dispositivo : 488383936 (465.76 GiB 500.11 GB) Dispositivos Raid : 2
Total De Dispositivos : 2 Preferido Menor De Edad : 8 Persistencia : Superbloque es persistente

Update Time : Mon Jan 25 04:52:25 2010
      State : active, degraded  Active Devices : 1 Working Devices : 1

Error De Dispositivos : 1 Dispositivos Libres : 0

       UUID : 2865aefa:ab6358d8:8f82caf4:1663e806
     Events : 0.11

Number   Major   Minor   RaidDevice State
   0      65       17        0      active sync   /dev/sdr1
   1       8      209        1      faulty   /dev/sdn1

1voto

twistedbrain Puntos 31

Lo sentimos, tal vez no entendí bien y un cat/proc/mdstat podría ser útil, pero por lo que puedo verlo rodado en el pie, destruyendo sus datos en RAID 0 y así sucesivamente los arreglos de discos RAID1 subyacentes. Es, si tiene para poner a prueba la fiabilidad de la RAID que debe etiquetar como falló un disco, un disco, no destruir bloques lógicos que se refiere a todos los discos saquen RAID1, si he entendido bien el problema (me avisan).

0voto

Hallgrim Puntos 7198

Tal vez necesita pedir al kernel para quitar la unidad defectuosa. liberará la incursión hangy.

Se puede quitar con comandos como http://bash.cyberciti.biz/diskadmin/rescan-linux-scsi-bus/

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: