8 votos

El grafito se detiene la recopilación de datos al azar

Tenemos un Grafito servidor para recopilar datos a través de collectd, statsd, JMXTrans ... Desde hace unos días, que con frecuencia tienen agujeros en nuestros datos. Cavar a través de los datos que todavía tenemos, podemos ver un aumento en las emisiones de carbono tamaño de la caché (de 50 a 4M). No vemos un aumento en el número de métricas de recogida (metricsReceived se mantiene estable en alrededor de 300K). Tenemos un incremento en el número de consultas de 1000 a 1500 de media.

Extrañamente, el cpuUsage disminuye ligeramente de 100% (tenemos 4 CPU) 50% cuando el tamaño de la caché de aumentar.

Curiosamente, de nuevo, vemos un aumento en el número de octetos de lectura de disco, y una disminución en el número de octetos por escrito.

Hemos de carbono configurar en su mayoría con valores por defecto:

  • MAX_CACHE_SIZE = inf
  • MAX_UPDATES_PER_SECOND = 5000
  • MAX_CREATES_PER_MINUTE = 2000

Evidentemente, algo ha cambiado en nuestro sistema, pero nosotros no entendemos qué, ni cómo podemos encontrar esta causa ...

Alguna ayuda ?

2voto

Esto no es una pila de grafito del error, sino más bien un IO cuello de botella, más probablemente debido a que su almacenamiento no tiene la suficiente IOPS. Debido a esto, la cola se mantiene la construcción, y se desborda a 4M. En ese punto, Se pierde mucho en la cola de datos, lo que se refleja más tarde, como al azar "huecos" en el gráfico. El sistema no puede mantenerse con la escala a la que se está recibiendo métricas. Se mantiene el llenado y desbordante.

Extrañamente, el cpuUsage disminuye ligeramente de 100% (tenemos 4 CPU) el 50% cuando el tamaño de la caché de aumentar.

Esto es debido a que el sistema comienza el intercambio y la Cpu de obtener una gran cantidad de "tiempo de inactividad", debido a la IO esperar.

Para agregar contexto, tengo 500 de IOPS aprovisionadas en aws en un sistema en el que voy a recibir algo de 40K métricas. La cola es estable en 50K.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: