27 votos

¿Cómo interpretar estos datos de smartctl (smartmon)

Tenemos un servidor linux que ha estado en el uso intensivo de 3 años. Estamos ejecutando un número de servidores virtualizados en él, algunos que no se han portado bien, y por un tiempo significativo del servidor io capacidad se superó conduce a la mala iowait. Tiene 4 Barracuda 500gb sata conectado a un 3com de la controladora raid. 1 Unidad tiene el sistema operativo, y los otros 3 son de configuración de raid-5.

Ahora tenemos un debate sobre el estado de las unidades y si están activamente fallando.

Aquí está una parte de la salida para el 1 de los 4 discos. Todos ellos tienen relativamente similar estadísticas:

SMART Atributos de Estructura de Datos número de revisión: 10
Proveedor Específico INTELIGENTE de los Atributos con los Umbrales de:
ID# ATTRIBUTE_NAME VALOR DE INDICADOR DE PEOR THRESH TIPO ACTUALIZADA WHEN_FAILED RAW_VALUE
 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-falla Siempre - 169074425
 3 Spin_Up_Time 0x0003 092 095 000 Pre-falla Siempre - 0
 4 Start_Stop_Count 0x0032 100 100 020 Old_age Siempre - 26
 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-falla Siempre - 0
 7 Seek_Error_Rate 0x000f 077 060 030 Pre-falla Siempre - 200009354607
 9 Power_On_Hours 0x0032 069 069 000 Old_age Siempre - 27856
 10 Spin_Retry_Count 0x0013 100 100 097 Pre-falla Siempre - 1
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Siempre - 26
184 Unknown_Attribute 0x0032 100 100 099 Old_age Siempre - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Siempre - 0
188 Unknown_Attribute 0x0032 100 100 000 Old_age Siempre - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age Siempre - 0
190 Airflow_Temperature_Cel 0 x 0022 071 045 060 Old_age Siempre - 29, Apartado de por Vida de Min/Max 26/37)
194 Temperature_Celsius 0 x 0022 029 040 000 Old_age Siempre - 29 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Siempre - 169074425
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Siempre - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age sin conexión - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Siempre - 0

SMART Registro de Error de la Versión: 1
No Hay Errores Registrados

Mi interpretación de esto es que no hemos tenido ningún sectores defectuosos u otros indicios de que ninguna de las unidades están activamente fallando.

Sin embargo, la alta Raw_Read_Error_Rate y Seek_Error_Rate se señala como indicaciones de que las unidades están muriendo.

74voto

siddhadev Puntos 6083

Para discos Seagate (y posiblemente algunos viejos de WD también) el Seek_Error_Rate y Raw_Read_Error_Rate son números de 48 bits, donde los 16 bits más significativos son un recuento de errores, y los bajos 32 bits son un número de operaciones.

>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Por lo que ha realizado su disco busca 2440858991 46 no. Mi experiencia con unidades de Seagate es que tienden a fallar cuando el número de errores va sobre 1000. YMMV.

13voto

the-wabbit Puntos 28168

La "velocidad de error de búsqueda" y "raw leer tasa de error de" RAW_VALUES son virtualmente sin sentido para nadie, pero Seagate de apoyo. Como otros señalaron, en bruto los valores de parámetros como la "reallocated sector count" o entradas en el registro de error son más propensos a indicar una mayor probabilidad de fracaso.

Pero usted puede tomar un vistazo a los datos interpretados en el VALOR, lo PEOR y TRILLAR columnas que están destinados a ser leídos como indicadores:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Lo que significa que su velocidad de error de búsqueda es considerado en la actualidad "el 77% buena", y se ha reportado como un problema INTELIGENTE cuando se alcanza el "30% bueno". Había sido tan baja como "el 60% buena" una vez, pero por arte de magia se ha recuperado desde entonces. Tenga en cuenta que la interpreta los valores son calculados por la unidad INTELIGENTE de la lógica interna y el cálculo exacto puede o no puede ser publicado por el fabricante y, normalmente, no puede ser ajustado por el usuario.

Personalmente, considero que una unidad que contiene entradas de registro de error como "fracaso" y la necesidad de un reemplazo tan pronto como se producen. Pero a pesar de todo, SMART data se ha convertido en un lugar débil indicador de predicción de error, como un trabajo de investigación, publicado por Google descubierto.

10voto

meatvest Puntos 426

En mi experiencia, Seagates tienen números de extraños para los dos atributos SMART. Al diagnosticar un Seagate tiendo a ignorar aquellos y mirar más de cerca en otros campos como reasignar Sector Conde. Por supuesto, cuando cambie de duda la unidad, sino incluso marca Seagates nuevo tendrá altos números para los atributos.

7voto

Fred Flint Puntos 31

Me di cuenta de que esta discusión es un poco viejo pero quiero agregar mis 2 centavos. He encontrado la información smart para ser un buen indicador de pre-falla. Cuando usted consigue un smart umbral disparado, a continuación, vuelva a colocar la unidad. Que es lo que los umbrales se para.

La gran mayoría del tiempo usted comenzará a ver los sectores defectuosos. Que es un signo seguro de que la unidad está empezando a fallar. SMART me ha salvado muchas veces. Yo uso software RAID 1 y es muy útil, ya que basta con sustituir la falta de unidad y la reconstrucción de la matriz.

Yo también ejecutar a corto y largo auto de la prueba semanal.

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

Añadir el /etc/smartd.conf y conseguir que se envíe un correo electrónico si hay errores

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

Asegúrese de instalar logwatch y redirigir la root a una dirección de correo electrónico y comprobar los correos electrónicos diarios de logwatch. SMARTD disparado las banderas de mostrar hasta ahí, pero es de ninguna ayuda si nadie está vigilando que con regularidad.

1voto

Barnabas Kendall Puntos 2184

Sí, esos campos se ven malos pero no confío (ya) la información reportada por smart (mi máquina de prueba tiene una unidad que debe estar muerta hace mucho tiempo si usted lee los datos con smartctrl) el hecho es que han reportado alta iowait y las unidades son 3 años de edad. Esto debería ser suficiente para cambiar las unidades.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: