27 votos

Más comandos de larga duración matados instantáneamente en Amazon EC2 (Ubuntu 10.04)

Cuando se ejecuta cualquier tipo de comando de larga duración en la terminal, el programa muere instantáneamente y la terminal de salidas del texto Killed .

¿Algún consejo? ¿Tal vez hay un archivo de registro con los datos que explican por qué están matando los comandos?

Actualización

Aquí está un fragmento de dmesg que esperemos que deben iluminar lo que está causando el problema. Otra nota que pueda ser útil es que se trata de una instancia de Amazon EC2.

May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184209] Call Trace:
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184218]  [<c01e49ea>] dump_header+0x7a/0xb0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184221]  [<c01e4a7c>] oom_kill_process+0x5c/0x160
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184224]  [<c01e4fe9>] ? select_bad_process+0xa9/0xe0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184227]  [<c01e5071>] __out_of_memory+0x51/0xb0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184229]  [<c01e5128>] out_of_memory+0x58/0xd0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184232]  [<c01e7f16>] __alloc_pages_slowpath+0x416/0x4b0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184235]  [<c01e811f>] __alloc_pages_nodemask+0x16f/0x1c0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184238]  [<c01ea2ca>] __do_page_cache_readahead+0xea/0x210
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184241]  [<c01ea416>] ra_submit+0x26/0x30
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184244]  [<c01e3aef>] filemap_fault+0x3cf/0x400
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184247]  [<c02329ad>] ? core_sys_select+0x19d/0x240
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184252]  [<c01fb65c>] __do_fault+0x4c/0x5e0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184254]  [<c01e4161>] ? generic_file_aio_write+0xa1/0xc0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184257]  [<c01fd60b>] handle_mm_fault+0x19b/0x510
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184262]  [<c05f80d6>] do_page_fault+0x146/0x440
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184265]  [<c0232c62>] ? sys_select+0x42/0xc0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184268]  [<c05f7f90>] ? do_page_fault+0x0/0x440
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184270]  [<c05f53c7>] error_code+0x73/0x78
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.184274]  [<c05f007b>] ? setup_local_APIC+0xce/0x33e
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272161]  [<c05f0000>] ? setup_local_APIC+0x53/0x33e
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272163] Mem-Info:
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272164] DMA per-cpu:
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272166] CPU    0: hi:    0, btch:   1 usd:   0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272168] Normal per-cpu:
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272169] CPU    0: hi:  186, btch:  31 usd:  50
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272171] HighMem per-cpu:
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272172] CPU    0: hi:  186, btch:  31 usd:  30
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272176] active_anon:204223 inactive_anon:204177 isolated_anon:0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272177]  active_file:47 inactive_file:141 isolated_file:0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272178]  unevictable:0 dirty:0 writeback:0 unstable:0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272179]  free:10375 slab_reclaimable:1650 slab_unreclaimable:1856
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272180]  mapped:2127 shmem:3918 pagetables:1812 bounce:0May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272186] DMA free:6744kB min:72kB low:88kB high:108kB active_anon:300kB inactive_anon:308kB active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:15812kB mlocked:0kB dirty:0kB writeback:0kB mapped:4kB shmem:0kB slab_reclaimable:8kB slab_unreclaimable:0kB kernel_stack:0kB pagetables:0kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? yes
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272190] lowmem_reserve[]: 0 702 1670 1670May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272197] Normal free:34256kB min:3352kB low:4188kB high:5028kB active_anon:317736kB inactive_anon:317308kB active_file:144kB inactive_file:16kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:719320kB mlocked:0kB dirty:4kB writeback:0kB mapped:32kB shmem:0kB slab_reclaimable:6592kB slab_unreclaimable:7424kB kernel_stack:2592kB pagetables:7248kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:571 all_unreclaimable? yes
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272201] lowmem_reserve[]: 0 0 7747 7747May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272207] HighMem free:500kB min:512kB low:1668kB high:2824kB active_anon:498856kB inactive_anon:499092kB active_file:44kB inactive_file:548kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:991620kB mlocked:0kB dirty:0kB writeback:0kB mapped:8472kB shmem:15672kB slab_reclaimable:0kB slab_unreclaimable:0kB kernel_stack:0kB pagetables:0kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:430 all_unreclaimable? yes
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272211] lowmem_reserve[]: 0 0 0 0May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272215] DMA: 10*4kB 22*8kB 38*16kB 33*32kB 16*64kB 10*128kB 4*256kB 1*512kB 1*1024kB 0*2048kB 0*4096kB = 6744kBMay 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272223] Normal: 476*4kB 1396*8kB 676*16kB 206*32kB 23*64kB 2*128kB 0*256kB 0*512kB 0*1024kB 1*2048kB 0*4096kB = 34256kBMay 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272231] HighMem: 1*4kB 2*8kB 28*16kB 1*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 500kB
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272238] 4108 total pagecache pages
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272240] 0 pages in swap cache
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272242] Swap cache stats: add 0, delete 0, find 0/0
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272243] Free swap  = 0kB
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.272244] Total swap = 0kB
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.276842] 435199 pages RAM
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.276845] 249858 pages HighMem
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.276846] 8771 pages reserved
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.276847] 23955 pages shared
May 14 20:29:15 ip-10-112-33-63 kernel: [11144050.276849] 405696 pages non-shared

38voto

Heath Puntos 1042

Usted debe ser capaz de averiguar lo que mató a su proceso examinando el resultado de la dmesg comando; o en los ficheros /var/log/kern.log, /var/log/messageso /var/log/syslog.

Hay un número de cosas que pueden causar un proceso para ser ejecutados sumariamente:

  • Si se supera el duro ulimit para varias de memoria o de cpu de los tipos de uso que se pueden examinar mediante ulimit -H -a
  • Si el sistema tiene poca memoria virtual, procesos puede morir por el kernel oom killer para liberar memoria (En su caso, no es probable que este)
  • Si el sistema tiene SELinux, y/o PaX/grsecurity instalado, un proceso que podría estar muerto si intenta hacer algo que no está permitido por la política de seguridad, o si se intenta ejecutar la auto-código modificado.

Los registros o dmesg debo decirles por qué el proceso fue asesinado.

11voto

rthomson Puntos 839

Los registros informados como en la actualización de indicar que el sistema está ejecutando fuera de la memoria y el OOM killer se invoca para matar procesos con el fin de mantener libre la memoria cuando "todo lo demás falla". El algoritmo de selección para el OOM killer puede ser favorablemente la orientación de su "larga marcha" de los procesos. Ver la página enlazada para una descripción del algoritmo de selección.

La solución obvia es más de memoria, pero que podría estar corriendo fuera de la memoria debido a una pérdida de memoria en algún lugar y la adición de más memoria es probable que sólo retrasan el OOM killer ser invocada si ese es el caso. Revise su tabla de procesos para los procesos mediante la mayor parte de la memoria con su herramienta favorita (top, ps, etc.) y partir de ahí.

4voto

yaplik Puntos 316

Como ya se ha explicado por los demás, se está quedando sin memoria, por lo que fuera de la memoria del asesino se activa y mata a algún proceso.

Usted puede solucionar este problema haciendo:

a) actualizar el ec2 de la máquina más potente, 'instancia pequeña' tiene 2.5 x más memoria (1.7 GB) de 'micro instancia" (0.64 GB), los costos adicionales de dinero

b) la adición de partición de swap - añadir EBS unidad, mkswap /dev/sdx, swapon /dev/sdx, de los costos de almacenamiento de EBS y IO honorarios

c) la adición de archivo de intercambio - dd if=/dev/zero of=/swap bs=1M count=500, mkswap /swap, swapon /swap, los costos de IO honorarios y el espacio libre en la root de EBS

C) debería ser suficiente, pero ten en cuenta que las micro instancia no se supone que se ejecuta de larga duración intensivo de la cpu de tareas debido límites de la cpu (sólo ráfagas cortas permitido).

3voto

Delicious Puntos 21

Yo tenía el mismo problema. Mis procesos estaban siendo asesinados.

Me enteré de que el Ubuntu AMI yo estaba usando no tiene un espacio de intercambio de configurar. Cuando la memoria está llena y no hay ningún espacio de intercambio disponible, el kernel de forma impredecible empezar a matar procesos para protegerse a sí mismo. Espacio de intercambio impide que. (Este problema es especialmente relevante para la Micro instancia debido a la pequeña 613 MB de memoria).

Para comprobar si usted tiene un espacio de intercambio de tipo de instalación: swapon -s

Configurar el espacio de intercambio: http://www.linux.com/news/software/applications/8208-all-about-linux-swap-space

Otros recursos: http://wiki.sysconfig.org.uk/display/howto/Build+your+own+Core+CentOS+5.x+AMI+for+Amazon+EC2

1voto

Anand Jeyahar Puntos 89

El registro dice que se está quedando sin swap/memoria caché.

 14 de mayo a las 20:29:15 ip-10-112-33-63 kernel: [11144050.272240] 0 páginas de intercambio en caché
 14 de mayo a las 20:29:15 ip-10-112-33-63 kernel: [11144050.272242] Intercambio de caché estadísticas: agregar 0, eliminar 0, encontrar 0/0
 14 de mayo a las 20:29:15 ip-10-112-33-63 kernel: [11144050.272243] Gratis swap = 0kB
 14 de mayo a las 20:29:15 ip-10-112-33-63 kernel: [11144050.272244] Total de swap = 0kB

Se puede dividir el trabajo/proceso que se está ejecutando en lotes? Tal vez usted puede tratar de ejecutarlo en aislamiento después de la detención de los otros procesos?

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: