46 votos

¿Es seguro mantener la GPU en uso al 100% durante mucho tiempo?

Actualmente estoy haciendo cálculos numéricos utilizando CUDA en mi GPU, una NVIDIA GeForce GTX 1050 Ti. Estas operaciones suelen tardar meses en completarse, y durante ese tiempo, dejo mi PC las 24 horas, los 7 días de la semana.

¿Es tan seguro hacerlo? ¿Estoy arriesgando un posible sobrecalentamiento de mi tarjeta gráfica que podría provocar (en el peor de los casos) un incendio en una casa?


Tenga en cuenta que la PC está correctamente ventilada y que no hay obstrucciones en el flujo de aire.

56voto

Eugen Rieck Puntos 1872

Respuesta corta: Este debe ser seguro en bien diseñado de hardware.

Respuesta larga: La GPU (y su entorno de software: drivers, sistema operativo, demonios) están diseñados para proteger contra el sobrecalentamiento - la GPU debe primero convertir a los fans en un más alto de RPM, si es que no pueden mantener una temperatura segura, a continuación, la GPU para acelerar las cargas de trabajo (por lo general mediante la reducción de la frecuencia de reloj). Esto asegurará un perfil de temperatura que no va a dañar la GPU y por lo tanto no es el PC (o la habitación).

Advertencia: existen barato knock-off de tarjetas gráficas, donde el firmware está diseñado específicamente para el sacrificio de seguridad para el rendimiento. Aunque no creo que los que existen para un 1050, no estoy 100% seguro. Usted debe también prefiero el de los drivers de Nvidia descargar de su sitio web a través de "optimizado" proveedor controladores, lo que podría hacer la misma cosa.

9voto

TooTea Puntos 229

Un incendio en la casa es extremadamente raro, pero la vida útil de la tarjeta puede ser reducido.

A largo plazo el sobrecalentamiento del chip de la GPU probablemente no el inicio de un incendio. El chip se puede deteriorar y empezar a portarse mal o morir completamente, pero los chips de silicio no son muy inflamables. Malas cosas suelen pasar cuando los condensadores electrolíticos fallar y volar, pero estos no estarán sujetos a un sobrecalentamiento sólo porque la tarjeta está haciendo un montón de cálculos y también espero tener un metal de la caja del PC para contener la metralla caliente que los resultados de dichos errores.

Sin embargo, los consumidores de grado piezas no son en general diseñado para el largo plazo 24/7 cargas. Por lo tanto es bastante probable que la tarjeta va a morir más pronto que si no estaba sujeto a dichas cargas. Es difícil decir cuánto tarde sin tener un poco más de las estadísticas en un modelo dado. Algunas personas en el HPC defensor de la comunidad el uso de juegos de gama alta Gpu en lugar de especial computacional de alto rendimiento de piezas, y parece ser que existen algunas económica sentido en que. Aunque el producto de piezas de morir en un año o así, que es más barato mantener a la sustitución de ellos porque son muchas veces más barato que la alternativa

6voto

Sean Houlihane Puntos 161

Sí, la tarjeta es probable que llevar a cabo antes, si es bajo una carga constante. En pequeñas geometrías, la Electromigración es una fuente importante de errores del dispositivo, y los dispositivos suelen ser diseñados con un objetivo específico de por vida en la mente. Esto podría ser generosos para el funcionamiento normal (por ejemplo, 5 años de operación continua), pero no podría asumir el 100% de máximo punto de funcionamiento durante todo ese tiempo. Tan pronto como se inicie la sincronización excesiva, puede esperarse que el objetivo de reducir en forma significativa. (Igualmente, a sólo 80% de la carga sería tal vez el doble de la vida debido a este mecanismo de falla).

Por supuesto, hay otros fallos que se refieren a la ejecución de los componentes calientes, o los ciclos térmicos, este es solo el punto de que la electrónica moderna (y hasta la década de 1980 electrónica al mal diseñado) puede ser suceptible a 'llevar a cabo'.

3voto

tahrey Puntos 131

Si su sistema de refrigeración funciona bien, y el hardware de cualquier tipo de ni siquiera vagamente, de diseño moderno que incluye en el chip de control de temperatura y de limitación térmica/suspender/apagado, entonces es totalmente seguro. No puede sobrecalentar tan largo como el refrigerador sigue funcionando, y si eso falla, los chips se acelerador hacia atrás hasta que ya no estás produciendo más calor que puede ser pasivamente disipada (lo que puede significar tener que suspender por completo, apareciendo como un bloqueo/bloqueo).

Peor de los casos, si la limitación no se dispara rápido y duro lo suficiente como para compensar acumulado de carga térmica, una parte del chip puede que termine de derretirse o quemarse, y usted va a terminar con un muerto de la junta, pero en ese momento la limitación de los circuitos deben tener estrelló contra completo de parada de emergencia, tal vez incluso un disparo (temporal o permanente) fusible en el carril de energía, la prevención de cualquier tipo de la huída de dumping de la totalidad de la tensión de entrada al azar en todo el morir y un fuego real.

Afortunadamente, la plataforma de la PC trabajado la mayoría de los kinks en esa clase de protección térmica sistema de 10-15 años, después de que el menor escándalo de algunos de mediados de generación PIIIs y Athlons demostrando enteramente capaces de completamente de fumar sí mismos (y, por tanto, un riesgo de incendio) si el refrigerador fallado o se cayó, mientras que el CPU estaba en full tilt. Una generación de chips más tarde y que podría ser fácilmente demostrado que un overclocking de gama alta con procesador apenas supera la potencia máxima nominal de la temperatura en el disipador de calor de la superficie si se rompió el disipador de calor y ventilador apagado a la derecha en el medio de un pesado de referencia... el equipo se desaceleró a un rastreo o incluso sufrió un "fatal" (para el software, el hardware sólo necesitaba el HSF reemplazado y reiniciar) error, pero los chips sobrevivido y no hay riesgo levantó. Esperemos que cualquier GPU fabricante que se precie no va a ser una década y media detrás de la curva, especialmente cuando sus productos ya pueden funcionar bastante cerca de sus nominal límites de temperatura de sabio.

Sin embargo, eso no hace que este tipo de tratamiento completamente "seguro" para los transistores del chip. Peso pesado "los números" (Bitcoin? El plegamiento de la proteína?) el uso de GPUs es por ahora un lugar infame manera de, literalmente, llevar a cabo el silicio. La combinación de alto voltaje y de la corriente continua y la conmutación de miles de millones de veces por segundo, más sostenido de las altas temperaturas de estrés de los componentes de un poco, tanto las fichas y las piezas de apoyo como los condensadores, por lo que su vida útil puede reducirse a apenas dos años, en algunos casos, al menos a toda velocidad. Se puede ejecutar en un poco más de tiempo si disminuida (máxima velocidad de reloj limitado etc) y empleado menos exigentes fines, como el año pasado los juegos, pero son en tiempo prestado una vez que empiezan a erroring fuera a la velocidad máxima.

Así que no va a coger en el fuego, pero no me banco la tarjeta sigue siendo fiable pasado su tercer cumpleaños en que el empleo...

1voto

bpalij Puntos 11

Como usted ha mencionado, la ventilación es buena, así que no hay necesidad de preocuparse acerca de este factor de riesgo.

Hablando de la GPU, que va a ser usado más fuerte, que en el trabajo habitual de oficina de 8 a 16 horas al día, así que cuando se utiliza en un 100% 24/7/365 es raro va a ser capaz de trabajar de 5-10 años y más. Pero también hay que considerar que la GPU puede tener un mal diseño del sistema de refrigeración de la GPU (no un PC en general), un mal diseño en general, el software y el firmware de los errores, la mala calidad de la producción o la producción de defecto(s) con diferente gravedad y tasa de defectos - a partir de una sola instancia de los defectos de los seres masivas. Estos factores pueden hacer que la calefacción peor, causar un error del sistema, poco tiempo de vida, cortocircuito o incluso podría provocar incendios o hacer que usted eléctrico golpeado. Algunos de los factores que dependen del modelo y la revisión, algunos están siendo gradualmente fijo con las actualizaciones de software o firmware, algunos varían de un solo elemento a otro. Mejor elegir los modelos con fiabilidad probada reputación con una adecuada revisión (generalmente el más reciente posible). También, se puede tener una mala influencia y que interfieren gravemente con los otros componentes, por ejemplo, mediante la generación adicional de electricidad/electrónica ruido de la señal. También, no se olvide el hecho de que la pasta térmica puede perder gradualmente sus cualidades y de enfriamiento peor.

Debo mencionar, que la tarjeta gráfica no es el único elemento a considerar, debido a que un PC es un sistema complejo y el éxito de su trabajo depende el estado de varios componentes. Cada poco, incluso si no es necesario y no utilizados, componente defectuoso, incluso la unidad de disquete o algunas de las luces decorativas puede romper el PC hacia abajo o la causa de los problemas cercanos a los que se menciona acerca de la GPU. Por ejemplo, una mala botón de encendido/apagado puede provocar el apagado o el reinicio. Y ahora más profunda acerca de los componentes clave:

  • CPU: en el caso de uso, es probable que no serán más que durante ordinaria del día a día de uso, y es probable que usted absolutamente no necesita de overclock. Hoy en día Cpu característica de todos los mecanismos de defensa como de limitación y de parada de emergencia y se considera que es bastante durable. No hay que olvidar acerca de la nevera y la pasta térmica y es muy raro para ser el punto más débil del sistema.
  • Placa madre: casi el mismo que el de la CPU, pero no es el uso pesado de PCI-e y tal vez el uso pesado de discos de red y periféricos, pero es mejor elegir modelos probados.
  • Memoria RAM: es muy poco probable que se rompa, por lo que este riesgo no es digno de estar preocupado por. Sólo tiene que utilizar una buena.
  • Discos: en las tareas que se basan en el uso de disco (como la minería de datos, procesamiento de datos, el aprendizaje de una red neuronal con los datos en el disco) HDD puede convertirse en un punto débil en la fiabilidad de los servidores y centros de datos es muy común cambiar de un disco en 1-3 años y muy rara vez "en vivo" de 5 años o más. Usted puede usar RAID 1 y sistemas de copia de seguridad para aumentar la fiabilidad en 24/7/365 uso (RAID 0 sacrificios fiabilidad de rendimiento, las Incursiones de otros puede tomar un montón de tiempo para restaurar los datos. También RAID != copia de seguridad, así que no descuides con copias de seguridad, si es necesario). Cuando el uso de SSD, las operaciones, que son pesados en el disco de escritura puede drenar el terabytes-escrito límite y hacer que el disco inútil - prefieren TBW por encima de otros elementos. RAID 1 con Ssd puede defender el sistema contra fallos repentinos de un disco, pero no ayudan con TBW tasa. HDD o SSD - depende de sus necesidades, presupuesto y libertad de elección. Mejor elegir los modelos con fiabilidad probada reputación con una adecuada revisión (generalmente el más reciente posible).
  • Bloque: es muy utilizada por la tarjeta gráfica y por lo tanto ha sido usado de forma más intensa - así que es mejor elegir los modelos con fiabilidad probada reputación con una adecuada revisión (generalmente el más reciente posible) y la potencia de por lo menos 1.5 x más que el sistema general de consumo, o al menos 2x-2.5 x más, que los principales consumidores de energía (como la GPU y la CPU). Asegúrese de usar un buen 220V cable de CA, debido a la mala 220V AC cables pueden provocar un cortocircuito eléctrico, golpeado o la grabación (sólo puede hacer que el humo y el auto-destruir o establecer un incendio real)!
  • Ventiladores: si bien pueden parecer insignificantes, que son cruciales en tales casos de uso y su fallo es un gran problema para 24/7/365 sistemas. Por lo general, se instala como muchos como usted puede, pero también tener en cuenta el tamaño más grande son más silenciosos y más eficaz, mientras que los más pequeños, en algunos casos, puede ser instalado en una mayor cantidad, por lo que el fallo de uno de ventilador, será menos doloroso para el sistema - la elección es suya.
  • Exóticos sistemas de enfriamiento: refrigeración por agua se considera para ser compacto y eficaz en alta climatizada overclockeado sistemas, pero las fugas de agua pueden causar daños graves a PC componentes. Congelados en nitrógeno sistemas son muy eficaces, pero no va a ser necesario, pero son más voluminosos y caros.

Profesional de la empresa 24/7/365 sistemas y componentes están mejor diseñados para eso y tener una reserva en todos los componentes, incluso Cpu y la Bios, y la característica hot-reemplazo de componentes o módulos, pero incluso ellos no cuentan con 100% de tiempo de actividad (cierre, pero no es igual), profesionales de las tarjetas de Nvidia son más rápidos para CUDA (especialmente las redes neuronales), pero yo no creo que sea el caso de uso.

Montaje del sistema no es menos importante, de los mismos componentes. No olvidemos que una de las acciones, no hacer algo mal, no hacer un PC como un estúpido y todo debe estar bien.

Asegúrese de que el software no se fuerza el cierre, reiniciar el PC o matar el proceso. Si usted es un Win10 de usuario, usted puede pensar que no hay manera de totalmente desactivación de las actualizaciones, pero hay soluciones y piezas de software en la Web para que (Advertencia: puede violar EULA).

Periféricos también pueden causar problemas, como el de PC componentes. Por ejemplo, un mal usado o ratón puede registrar un botón de prensa cuando no hay prensa.

Sobre la clave de las circunstancias externas:

  • Electricidad: espero que la electricidad en su casa es muy fiable y estable, debido a la desconexión de la electricidad puede hacer que usted pierda los resultados de su trabajo. Con corto tiempo de problemas en el sistema eléctrico, UPS puede ayudar a usted, pero con más problemas de tiempo se puede dar sólo el tiempo de hibernar el sistema o para guardar tu progreso correctamente.
  • Red: si su tarea se basa en la Internet o conexiones de red, compruebe si los cables/módem/router está bien.

Resumiendo: no es sólida garantía de que todo va a ser bueno (literalmente, sólo la muerte es garantizada) y de todos modos usted debe aceptar los riesgos (que nunca será igual a cero), pero tener una buena elección de los componentes, el correcto montaje y no tener mala suerte en la compra de desertó componentes que permite el uso de la PC de esa manera con menor riesgo, entonces la pregunta que el autor asume desde el principio, a menos que usted se va a hacer durante años y años y se espera que la fiabilidad de 5, 10 y más años.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: