9 votos

Carga de avg rareza en Linux Ubuntu

En los últimos días he estado tratando de entender la extrañeza que está sucediendo en nuestra infraestructura, pero no he sido capaz de entender que es nuestro, así que estoy recurriendo a ustedes para que me den algunos consejos.

He estado notando en el Grafito, los picos en load_avg que están sucediendo con el mortal regularidad, aproximadamente cada 2 horas - no es exactamente 2 horas, pero es muy regular. Estoy adjuntando una captura de pantalla de este me tomó de Grafito

Load Averag - Click to enlarge

Me he metido en la investigación de este - la regularidad de esto fue lo que me llevó a pensar que se trata de algún tipo de tarea en el cron o algo por el estilo, pero NO hay cron que se ejecuta en estos servidores - en realidad se trata de máquinas virtuales en ejecución en Rackspace cloud. Lo que estoy buscando es algún tipo de indicación de que podría ser la causa de estos problemas y de cómo investigar esto más a fondo.

Los servidores son bastante inactivo - este es un entorno de ensayo así que no hay casi tráfico entrante/no debe haber ninguna carga sobre ellas. Estos son los 4 núcleos virtuales de las máquinas virtuales. Lo que sé es que estamos teniendo un montón de Grafito muestras cada 10 segundos, pero si esa es la causa de la carga, a continuación, que espero que sea constantemente alta, en lugar de lo que ocurre cada 2 horas en las ondas en diferentes servidores.

Cualquier ayuda cómo investigar esto sería muy apreciada!


Aquí están algunos datos de sar para app01 - que es el primer pico azul en la imagen de arriba - yo no era capaz de sacar conclusiones de los datos. También no es que los bytes de escritura de la espiga que vean que pasa cada media hora y NO CADA 2 HORAS) es debido a la chef-cliente que se ejecuta cada 30 minutos. Voy a tratar de recopilar más datos a pesar de que yo ya he hecho eso, pero realmente no podía sacar conclusiones de los bien.

CARGA

09:55:01 PM   runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15   blocked
10:05:01 PM         0       125      1.28      1.26      0.86         0
10:15:01 PM         0       125      0.71      1.08      0.98         0
10:25:01 PM         0       125      4.10      3.59      2.23         0
10:35:01 PM         0       125      0.43      0.94      1.46         3
10:45:01 PM         0       125      0.25      0.45      0.96         0
10:55:01 PM         0       125      0.15      0.27      0.63         0
11:05:01 PM         0       125      0.48      0.33      0.47         0
11:15:01 PM         0       125      0.07      0.28      0.40         0
11:25:01 PM         0       125      0.46      0.32      0.34         0
11:35:01 PM         2       130      0.38      0.47      0.42         0
11:45:01 PM         2       131      0.29      0.40      0.38         0
11:55:01 PM         2       131      0.47      0.53      0.46         0
11:59:01 PM         2       131      0.66      0.70      0.55         0
12:00:01 AM         2       131      0.81      0.74      0.57         0

CPU

09:55:01 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
10:05:01 PM     all      5.68      0.00      3.07      0.04      0.11     91.10
10:15:01 PM     all      5.01      0.00      1.70      0.01      0.07     93.21
10:25:01 PM     all      5.06      0.00      1.74      0.02      0.08     93.11
10:35:01 PM     all      5.74      0.00      2.95      0.06      0.13     91.12
10:45:01 PM     all      5.05      0.00      1.76      0.02      0.06     93.10
10:55:01 PM     all      5.02      0.00      1.73      0.02      0.09     93.13
11:05:01 PM     all      5.52      0.00      2.74      0.05      0.08     91.61
11:15:01 PM     all      4.98      0.00      1.76      0.01      0.08     93.17
11:25:01 PM     all      4.99      0.00      1.75      0.01      0.06     93.19
11:35:01 PM     all      5.45      0.00      2.70      0.04      0.05     91.76
11:45:01 PM     all      5.00      0.00      1.71      0.01      0.05     93.23
11:55:01 PM     all      5.02      0.00      1.72      0.01      0.06     93.19
11:59:01 PM     all      5.03      0.00      1.74      0.01      0.06     93.16
12:00:01 AM     all      4.91      0.00      1.68      0.01      0.08     93.33

IO

09:55:01 PM       tps      rtps      wtps   bread/s   bwrtn/s
10:05:01 PM      8.88      0.15      8.72      1.21    422.38
10:15:01 PM      1.49      0.00      1.49      0.00     28.48
10:25:01 PM      1.54      0.00      1.54      0.03     29.61
10:35:01 PM      8.35      0.04      8.31      0.32    411.71
10:45:01 PM      1.58      0.00      1.58      0.00     30.04
10:55:01 PM      1.52      0.00      1.52      0.00     28.36
11:05:01 PM      8.32      0.01      8.31      0.08    410.30
11:15:01 PM      1.54      0.01      1.52      0.43     29.07
11:25:01 PM      1.47      0.00      1.47      0.00     28.39
11:35:01 PM      8.28      0.00      8.28      0.00    410.97
11:45:01 PM      1.49      0.00      1.49      0.00     28.35
11:55:01 PM      1.46      0.00      1.46      0.00     27.93
11:59:01 PM      1.35      0.00      1.35      0.00     26.83
12:00:01 AM      1.60      0.00      1.60      0.00     29.87

RED:

10:25:01 PM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
10:35:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
10:35:01 PM      eth1      7.07      4.77      5.24      2.42      0.00      0.00      0.00
10:35:01 PM      eth0      2.30      1.99      0.24      0.51      0.00      0.00      0.00
10:45:01 PM        lo      8.35      8.35      2.18      2.18      0.00      0.00      0.00
10:45:01 PM      eth1      3.69      3.45      0.65      2.22      0.00      0.00      0.00
10:45:01 PM      eth0      1.50      1.33      0.15      0.36      0.00      0.00      0.00
10:55:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
10:55:01 PM      eth1      3.66      3.40      0.64      2.19      0.00      0.00      0.00
10:55:01 PM      eth0      0.79      0.87      0.08      0.29      0.00      0.00      0.00
11:05:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
11:05:01 PM      eth1      7.29      4.73      5.25      2.41      0.00      0.00      0.00
11:05:01 PM      eth0      0.82      0.89      0.09      0.29      0.00      0.00      0.00
11:15:01 PM        lo      8.34      8.34      2.18      2.18      0.00      0.00      0.00
11:15:01 PM      eth1      3.67      3.30      0.64      2.19      0.00      0.00      0.00
11:15:01 PM      eth0      1.27      1.21      0.11      0.34      0.00      0.00      0.00
11:25:01 PM        lo      8.32      8.32      2.18      2.18      0.00      0.00      0.00
11:25:01 PM      eth1      3.43      3.35      0.63      2.20      0.00      0.00      0.00
11:25:01 PM      eth0      1.13      1.09      0.10      0.32      0.00      0.00      0.00
11:35:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
11:35:01 PM      eth1      7.16      4.68      5.25      2.40      0.00      0.00      0.00
11:35:01 PM      eth0      1.15      1.12      0.11      0.32      0.00      0.00      0.00
11:45:01 PM        lo      8.37      8.37      2.18      2.18      0.00      0.00      0.00
11:45:01 PM      eth1      3.71      3.51      0.65      2.20      0.00      0.00      0.00
11:45:01 PM      eth0      0.75      0.86      0.08      0.29      0.00      0.00      0.00
11:55:01 PM        lo      8.30      8.30      2.18      2.18      0.00      0.00      0.00
11:55:01 PM      eth1      3.65      3.37      0.64      2.20      0.00      0.00      0.00
11:55:01 PM      eth0      0.74      0.84      0.08      0.28      0.00      0.00      0.00

Para la gente curiosa acerca de cron. Aquí está el resumen de todos los cronjobs configurar en el servidor ( yo escogí app01 pero esto está sucediendo en un par de otros servidores con el mismo conjunto de tareas cron)

$ ls -ltr /etc/cron*
-rw-r--r-- 1 root root  722 Apr  2  2012 /etc/crontab

/etc/cron.monthly:
total 0

/etc/cron.hourly:
total 0

/etc/cron.weekly:
total 8
-rwxr-xr-x 1 root root 730 Dec 31  2011 apt-xapian-index
-rwxr-xr-x 1 root root 907 Mar 31  2012 man-db

/etc/cron.daily:
total 68
-rwxr-xr-x 1 root root  2417 Jul  1  2011 popularity-contest
-rwxr-xr-x 1 root root   606 Aug 17  2011 mlocate
-rwxr-xr-x 1 root root   372 Oct  4  2011 logrotate
-rwxr-xr-x 1 root root   469 Dec 16  2011 sysstat
-rwxr-xr-x 1 root root   314 Mar 30  2012 aptitude
-rwxr-xr-x 1 root root   502 Mar 31  2012 bsdmainutils
-rwxr-xr-x 1 root root  1365 Mar 31  2012 man-db
-rwxr-xr-x 1 root root  2947 Apr  2  2012 standard
-rwxr-xr-x 1 root root   249 Apr  9  2012 passwd
-rwxr-xr-x 1 root root   219 Apr 10  2012 apport
-rwxr-xr-x 1 root root   256 Apr 12  2012 dpkg
-rwxr-xr-x 1 root root   214 Apr 20  2012 update-notifier-common
-rwxr-xr-x 1 root root 15399 Apr 20  2012 apt
-rwxr-xr-x 1 root root  1154 Jun  5  2012 ntp

/etc/cron.d:
total 4
-rw-r--r-- 1 root root 395 Jan  6 18:27 sysstat
$ sudo ls -ltr /var/spool/cron/crontabs 
total 0
$

Como usted puede ver no hay HORA cron. Sólo, diaria, semanal, etc.

He reunido montón de estadísticas (vmstat, mpstat, iostat) - por mucho que lo intento no puedo ver todas las pistas que sugieran cualquier VM componente de portarse mal...estoy empezando a inclinarse hacia los posibles problemas en el hipervisor. Se sienten libres para echar un vistazo a las estadísticas de La esencia comienza con sar-q de salida en torno a la "ofender" a tiempo y, a continuación, puede ver vm,mp y iostats....

Básicamente, todavía es un total misterio para mí ...

3voto

Soham Chakraborty Puntos 2587

Interesante.

En primer lugar, se puede aumentar la frecuencia de la rae de registro. En lugar de 10 minutos, intente iniciar sesión cada minuto. El sysstat cronjob es configurable.

A continuación, intente la secuencia de comandos los comandos siguientes.

ps auxf > /tmp/ps.out
vmstat 1 50 > /tmp/vm.out
mpstat -P ALL 1 50 > /tmp/mp.out
iostat -xdk 1 50 > /tmp/io.out
cat /proc/meminfo > /tmp/meminfo.out

Reunir este conjunto de datos, ya sea en cada iteración cuando el promedio de carga aumenta de forma manual o a través de cron. Sería bueno tener datos de al menos un día completo de trabajo.

Ahora, yo entiendo que los servidores están inactivos, pero todavía algunas aplicaciones debe estar en ejecución. ¿Qué son?

Es posible que se pueda ejecutar alguna herramienta de creación de perfiles, como perf o oprofile.

Tiene cualquier servidor de componentes de hardware de ser cambiado? Incluso algo tan inocuo como una actualización de firmware o actualización de software.

Hola, una pregunta. ¿Cuál es el programador está ejecutando. Creo que es cfq, cualquier posibilidad de que usted puede cambiar a noop. Poner elevator=noop en la línea de comandos del kernel parámetro y reiniciar el sistema y ver si mejora.

1voto

John Siu Puntos 2342

Registro De Los Procesos Principales

Puesto que la aparición es muy regular, configuración de cron job para supervisar los procesos principales durante el período de los

#app01
20-59 0/2 * * * root /usr/bin/top -b -n 1 | /usr/bin/head -n 15 >> /var/log/top.log

Cambio 20-59 a * de registro de la hora entera para cada número par de horas. El trabajo Cron se ejecuta una vez por minuto en cualquiera de los casos.

Puede que desee agregar la parte superior.archivo de registro de registro de rotación, por lo que no ocupará todo el espacio en caso de que usted olvide desactivar.

Compruebe el archivo de Registro

Búsqueda de entradas del archivo de registro en alta periodo de carga

Tomar después de la carga de entrada como ejemplo

10:25:01 PM         0       125      4.10      3.59      2.23         0

¿

grep ' 22:2' /var/log/*
grep ' 22:2' /var/log/apache2/*

Que mostrará todas las entradas de registro para 22:2x:xx. Puede que tenga que incluir otro registro de directorios.

Sun Jan 6 21:00:07 de 2013: xvda w_await pico

xvda Gráfico - El w_await spike está en el Sun Jan 6 21:00:07 de 2013 enter image description here

0voto

SKFox Puntos 757

Una cosa que definitivamente, me gustaría comprobar:

  • vSphere gráficos para el mismo patrón, tal vez en otra máquina virtual en el mismo host está comiendo la Cpu (por lo tanto la carga en su VM aumenta a medida que se necesita más tiempo para procesar la misma cantidad de datos con un flujo constante debido al menor tiempo de CPU disponibles para su máquina virtual).

Edit: no consigo que la primera vez :) Se está ejecutando en Rackspace, así que no hay control en el hipervisor, sin embargo, valdría la pena preguntar rackspace si podrían comprobar si este patrón es común en otras máquinas virtuales en el mismo host.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: