2 votos

La reconstrucción de RAID1 falla debido a errores de disco

Información rápida: Dell R410 con 2 unidades de 500 GB en RAID1 en el adaptador H700

Recientemente, uno de los discos de la matriz RAID1 del servidor ha fallado, llamémoslo disco 0. La controladora RAID lo marcó como defectuoso y lo puso fuera de línea. Sustituí el disco defectuoso por uno nuevo (de la misma serie y fabricante, sólo que más grande) y configuré el nuevo disco como reserva en caliente.

La reconstrucción desde la unidad 1 comenzó inmediatamente y después de 1,5 horas recibí el mensaje de que la unidad 1 había fallado. El servidor no respondía (kernel panic) y era necesario reiniciar. Dado que media hora antes de este error la reconstrucción estaba en un 40%, estimé que la nueva unidad no estaba sincronizada aún y traté de reiniciar sólo con la unidad 1.

El controlador RAID se quejó un poco de que faltaban matrices RAID, pero encontró una matriz RAID ajena en la unidad 1 y la importé. El servidor arrancó y funciona (desde el RAID degradado).

Aquí están los datos SMART de los discos. Unidad 0 (la que falló primero)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    1
  3 Spin_Up_Time            POS--K   142   142   021    -    3866
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10432
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   112   106   000    -    31
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   200   200   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   200   198   000    -    3

Y la unidad 1 (la unidad que fue reportada sana por el controlador hasta que se intentó reconstruir)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    35
  3 Spin_Up_Time            POS--K   143   143   021    -    3841
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10455
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   114   105   000    -    29
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    3
198 Offline_Uncorrectable   ----CK   100   253   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   100   253   000    -    0

En los registros de errores extendidos de SMART encontré:

La unidad 0 sólo tiene un error

Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  10 -- 51 00 18 00 00 00 6a 24 20 40 00  Error: IDNF at LBA = 0x006a2420 = 6956064

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104  WRITE FPDMA QUEUED

Pero la unidad 1 tiene 883 errores. Sólo veo algunos de los últimos y todos los errores que puedo ver se parecen a esto:

Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  01 -- 51 00 80 00 00 39 97 19 c2 40 00  Error: AMNF at LBA = 0x399719c2 = 966203842

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:57.802  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:57.779  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:55.704  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:55.681  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:53.606  READ FPDMA QUEUED

Teniendo en cuenta estos errores, ¿hay alguna forma de reconstruir el RAID de nuevo, o debo hacer una copia de seguridad, apagar el servidor, sustituir los discos por otros nuevos y restaurarlo? ¿Qué pasa si dd el disco defectuoso a uno nuevo de linux que se ejecuta en USB / CD?

Además, si alguien tiene más experiencias, ¿cuáles podrían ser las causas de esos errores? ¿Controlador o discos defectuosos? Los discos tienen alrededor de 1 año, pero me parece increíble que ambos mueran en tan poco tiempo.

2voto

Magellan Puntos 3691

En realidad, si los discos son del mismo lote del fabricante, no es tan sorprendente que fallen al mismo tiempo.

Han tenido el mismo proceso de fabricación, el mismo entorno y los mismos patrones de uso. Por eso suelo intentar pedir unidades de modelos idénticos a diferentes proveedores.

Mi curso de acción preferido aquí es ponerse en contacto con el fabricante, reemplazar con mejores discos, restaurar desde la copia de seguridad.

Tampoco hay nada de malo en hacer DD's, pero por lo general tengo la necesidad de subir el servicio lo antes posible.

En la época del fiasco de los Deskstars de IBM, se me estropeó un juego completo de 8 discos en 6 semanas después de 4 años de uso. A duras penas salí de aquello con mis datos intactos.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: