2 votos

¿Qué sucede con un error de bit aleatorio en la caché en una CPU de Intel?

Tengo un sistema con RAM ECC y un procesador Xeon E3.

Entiendo que los circuitos ECC en la RAM detectarán la corrupción causada por errores de bits aleatorios en las chips de RAM.

Pero, ¿qué sucede con los errores de bits aleatorios dentro de la memoria almacenada en un CPU Intel? por ejemplo, ¿la caché y/o los registros?

¿No hay un agujero de cobertura donde la RAM buena se almacena en la caché del CPU, luego se corrompe y posteriormente es utilizada por el CPU (sin que se verifique en la RAM ECC)?

No puedo encontrar información en el sitio web de Intel excepto para las Xeon E7 de gama alta sobre la protección ECC de la caché.

¿Significa esto que cualquier CPU de Intel por debajo de la línea Xeon E7 es vulnerable a la corrupción de memoria independientemente de si se utiliza RAM ECC?

0voto

ArtK Puntos 116

Todo lo que escribiste es cierto, excepto que no estás enumerando razones prácticas para la corrección ECC. Recomiendo la lectura del artículo a continuación. Ahora, en la aplicación práctica, los sistemas utilizan la corrección de memoria para aumentar realmente el rendimiento porque algunos hardware y software son capaces de detectar inconsistencias en los datos y solicitar el reprocesamiento de la transacción. Además, es muy poco probable que un error común de un solo bit afecte tu trabajo. De hecho, es más probable que el sobrecalentamiento de cualquier chip electrónico en tu computadora pueda causar que el aislante permita el salto de un electrón (una razón por la que el overclocking hace que las computadoras fallen). La corrección de memoria es muy importante en cálculos a gran escala que no poseerían otros medios de corrección, como modelado del clima o cálculos científicos. En cualquier lugar donde datos corruptos se repitan miles de millones de veces o donde se procesen números de punto flotante largos. Por esa razón, hasta donde recuerdo, todos los núcleos AMD PileDriver y SteamRoller, que pueden combinar núcleos individuales para procesar números de punto flotante largos de 256 bits, utilizan ECC en la memoria de la CPU.

Algunas lecturas aquí

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X