9 votos

"el poder de limitar la notificación" clobbering en 12 g de servidores de Dell con RHEL6

Servidor: Poweredge r620
OS: RHEL 6.4
Núcleo: 2.6.32-358.18.1.el6.x86_64

Estoy experimentando aplicación de alarmas en mi entorno de producción. Crítica de la CPU hambre procesos de hambre de los recursos y causando un procesamiento de la cartera de pedidos. El problema se da en todos los 12 de Generación de servidores Dell (r620s) en un desplegó recientemente clúster. Tan cerca que puedo decir, en los casos de que esto ocurra son coincidentes hasta el pico de la utilización de la CPU, acompañado por enormes cantidades de "límite de potencia de la notificación de spam en dmesg. Un extracto de uno de estos eventos:

Nov  7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov  7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov  7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov  7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)

Un poco de Google Fu revela que este se asocia típicamente con la CPU ejecutando en caliente, o la regulación de la tensión de patadas en. No creo que es lo que está sucediendo, aunque. Sensores de temperatura para todos los servidores del clúster están funcionando bien, el Poder de la Pac Directiva está deshabilitada en el iDRAC, del Sistema y de mi Perfil es "Rendimiento" en todos estos servidores:

# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile                                    : Performance
CPU Power Management                              : Maximum Performance
Memory Frequency                                  : Maximum Performance
Turbo Boost                                       : Enabled
C1E                                               : Disabled
C States                                          : Disabled
Monitor/Mwait                                     : Enabled
Memory Patrol Scrub                               : Standard
Memory Refresh Rate                               : 1x
Memory Operating Voltage                          : Auto
Collaborative CPU Performance Control             : Disabled
  • Un Dell lista de correo de post describe los síntomas casi a la perfección. Dell sugerido que el autor trate de usar el perfil de Rendimiento, pero eso no ayuda. Terminó de aplicar algunos ajustes en Dell guía para la configuración de un servidor para una baja latencia entornos y uno de los ajustes (o una combinación de los mismos) parece haber solucionado el problema.
  • Kernel.org error #36182 observa que la potencia límite de interrupción de la depuración activada por defecto, lo que está causando la degradación del rendimiento en escenarios donde la CPU de la regulación de voltaje es de patadas en.
  • Un RHN artículo de KB (RHN es necesario iniciar sesión) menciona un problema que impactan PE r620 y r720 servidores no se ejecuta el perfil de Rendimiento, y recomienda una actualización del kernel liberado hace dos semanas. ...Excepto que se están ejecutando en el perfil de Rendimiento...

Todo lo que se puede encontrar en línea se está ejecutando mí en los círculos de aquí. ¿Qué diablos está pasando?

8voto

Andrew B Puntos 9763

No es la regulación de la tensión que causa el problema de rendimiento, pero el núcleo de depuración de las interrupciones que están siendo provocadas por ella.

A pesar de algunos desinformación en Redhat parte, todas las páginas vinculadas son los que hacen referencia al mismo fenómeno. La regulación de voltaje ocurre con o sin el perfil de Rendimiento, probablemente debido a la tecnología Turbo Boost, con la característica de ser habilitados. Independientemente de la razón, estas fluctuaciones de tensión son de interactuar mal con el poder-límite del núcleo interrupciones que están habilitadas por defecto en el kernel 2.6.32-358.18.1.el6.x86_64.

Confirmado Soluciones:

  • La actualización a la última versión del kernel Redhat (2.6.32-358.23.2.el6) deshabilita esta depuración y elimina el problema de rendimiento.
  • La adición de los siguientes parámetros del kernel a grub.conf deshabilitará PLNs: clearcpuid=229

Escamosa Soluciones:

  • Configuración de un Perfil de Sistema de "Rendimiento". Esto por sí solo no era suficiente para deshabilitar PLNs en nuestros servidores. Su kilometraje puede variar.

Malas Soluciones:

  • Listas negras de ACPI módulos relacionados. He visto esto en un par de hilos de foro. Mal aconsejado, así que no.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: