30 votos

¿Bit putrefacción en discos duros es un problema real? ¿Qué se puede hacer nada?

Un amigo está hablando conmigo sobre el problema de bit rot - bits en unidades al azar flipping, la corrupción de datos. Increíblemente raro, pero con el tiempo suficiente podría ser un problema, y es imposible de detectar.

La unidad no la consideran un mal sector, y las copias de seguridad acaba de pensar que el archivo ha cambiado. No hay ninguna suma de comprobación de los involucrados para validar la integridad. Incluso en una configuración de RAID, la diferencia sería detectado, pero no hay forma de saber cual espejo de la copia es correcta.

Es este un problema real? Y si es así, ¿qué se puede hacer al respecto? Mi amigo está recomendando zfs como una solución, pero no puedo imaginar el aplanamiento de nuestros servidores de archivos en el trabajo, poniendo en Solaris y zfs..

8voto

Ian Clelland Puntos 587

Los discos duros no suelen codificar los bits de datos como una sola dominios magnéticos -- los fabricantes de discos duros han sido siempre conscientes de que los dominios magnéticos podía girar, y construir en la detección y corrección de errores en las unidades.

Si un poco volteretas, la unidad contiene un número suficiente de datos redundantes que puede ser y será corregido en la próxima vez que el sector se lee. Usted puede ver esto si marca SMART estadísticas de la unidad, como la "corrección de la tasa de error'.

Dependiendo de los detalles de la unidad, que aún debe ser capaz de recuperarse de más de un volteado de bits en un sector. Habrá un límite para el número de volteado de bits que puede ser en silencio corregido, y probablemente otro límite para el número de volteado de bits que puede ser detectado como un error (incluso si ya no hay suficientes datos fiables para corregirlo)

Todo esto se suma el hecho de que las unidades de disco duro de forma automática puede corregir la mayoría de errores que ocurren, y puede detectar de forma fiable la mayoría del resto. Usted tendría que tener un gran número de errores de bits en un solo sector, que ocurrieron antes de que el sector se vuelve a leer, y los errores tienen que ser tales que el interior de la detección de errores códigos de ver como válidos los datos de nuevo, antes de que hubiera un error silencioso. No es imposible, y estoy seguro de que las empresas muy grandes centros de datos para hacer ver que sucede (o más bien, se produce y que no veo que suceda), pero ciertamente no es un problema tan grave como usted podría pensar.

4voto

Spoike Puntos 32082

Modernas unidades de disco duro (ya que 199x) no sólo han sumas de comprobación, sino también de ECC, que puede detectar y corregir un poco "random" bit rot. Ver: http://en.wikipedia.org/wiki/S.M.A.R.T.

Por otro lado, ciertos errores en el firmware y los controladores de dispositivo también puede corromper los datos en raras (de lo contrario QA la captura de los errores) ocasiones que sería difícil de detectar si no tienen un mayor nivel de sumas de comprobación. A principios de los controladores de dispositivos SATA y Nic había dañado los datos en Linux y Solaris.

ZFS de las sumas de comprobación se dirigen principalmente a los errores en el bajo nivel de software. Más reciente de almacenamiento y/o sistema de base de datos como Hypertable también han sumas de comprobación para cada actualización para protegerse contra los errores en los sistemas de ficheros :)

3voto

Kara Marfia Puntos 6914

Teóricamente, esto es causa de preocupación. Hablando prácticamente, esto es parte de la razón por la que mantenemos niño/padres/abuelos copias de seguridad. Anual de las copias de seguridad deben mantenerse durante al menos 5 años, de la OMI, y si tienes un caso de esta marcha atrás lejos de eso, el archivo no es, obviamente, que importante.

A menos que usted está tratando con los bits que podría potencialmente licuar alguien del cerebro, no estoy seguro de que el riesgo vs recompensa es bastante hasta el punto de cambiar los sistemas de archivos.

Admito que cada respuesta aquí, así que ahora tenía mejor información que la mía, pero, ¿realmente crees que un downvoting spree es la mejor contribución que puede hacer aquí? Espero que sea mejorado en su día, sin embargo, guardan un cachorro de alguna aflicción.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: