7 votos

Latido del corazón meatware STONITH en kernel panic

Tengo un clúster de dos nodos con el latido del corazón y DRBD la gestión de una base de datos mysql de recursos. La conmutación por error funciona muy bien si me detener la primaria, reiniciar o desconectar la conexión de red.

Sin embargo, si el principal sufre de un kernel panic (simulado por ejecutar echo c > /proc/sysrq-trigger), la secundaria no adquisición de los recursos.

Esto es lo que el latido del corazón de registro en la secundaria parece:

Jul 11 21:33:32 rad11 heartbeat: [7519]: WARN: node rad10: is dead
Jul 11 21:33:32 rad11 heartbeat: [7519]: info: Link rad10:eth0 dead.
Jul 11 21:33:32 rad11 heartbeat: [8442]: info: Resetting node rad10 with [Meatware STONITH device]
Jul 11 21:33:32 rad11 heartbeat: [8442]: ERROR: glib: OPERATOR INTERVENTION REQUIRED to reset rad10.
Jul 11 21:33:32 rad11 heartbeat: [8442]: ERROR: glib: Run "meatclient -c rad10" AFTER power-cycling the machine.

¿Alguien tiene alguna idea de por qué la secundaria no toma en esta situación? Normalmente conmutación por error de las grandes obras, pero estoy tratando de simular un kernel panic en el nodo principal.

EDIT: Aquí está mi latido del corazón de configuración, ja.cf

# /etc/ha.d/ha.cf

logfile /var/log/ha-log

keepalive 1

deadtime 10

udpport 695

ucast eth0 rad11
auto_failback on
stonith_host rad10 meatware rad11
stonith_host rad11 meatware rad10
node rad10 rad11

2voto

Petter H Puntos 1733

Cuando los nodos del clúster se pierde el contacto el uno con el otro, para evitar un split-brain escenario, donde ambos nodos pensar que ellos son los principales y trata de forma simultánea ejecutar el recurso compartido con potencial de desastre como un resultado (esto es especialmente un gran problema en los dos nodos de clústeres, debido a que tiene quórum si ambos nodos tienen un voto cada uno?), para mitigar esto, algunos grupos implementar diversas formas de esgrima.

En linux-ha la página de la wiki:

La esgrima es el proceso de bloqueo de los recursos de un nodo cuyo estado es incierto.

Hay una variedad de técnicas de cercado disponible.

Uno puede valla de nodos - usando el Nodo de la Esgrima, o cerca de los recursos uso de los Recursos de Esgrima. Algunos tipos de recursos son Auto Esgrima Recursos, y algunos no están dañados por el uso simultáneo, y no requieren de la esgrima.

Cuando un nodo preformas un apagado limpio, muy bien dejar el clúster, y así los demás sabrán lo que es y por lo tanto sólo le tomará más de cualquiera de los servicios del nodo podría haber sido ejecutando y, a continuación, seguir adelante. Cuando el nodo en lugar de las hojas del clúster bien consigue un kernel panic, los otros miembros del clúster no saber el estado del otro nodo. Se trata de un "incierto" que, desde su punto de vista, así que en lugar de que se va a realizar la configuración de "esgrima" de las acciones, que en el caso de STONITH significa tratando de quitar la fauly nodo por la fuerza del clúster (por el poder de ciclismo, etc).

Buscando en sus registros, parece que la meatware STONITH el mecanismo seleccionado para la configuración del clúster. Como el nombre lo sugiere, implica manualmente el ciclo de energía en el nodo y, a continuación, ejecutar dicho comando. De doc:

meatware

Extraño nombre y un concepto simple. meatware requiere la ayuda de un humano para operar. Cada vez que se invoca, meatware registros de un CRIT gravedad mensaje lo que se debería mostrar en el nodo de la consola. El operador debe asegúrese de que el nodo está abajo y emitir un meatclient(8) comando para dígale a meatware que es correcto decir que el clúster que se puede considerar el nodo de muertos. Consulte el archivo LÉAME.meatware para obtener más información.

Hay otras maneras de configurar la esgrima. Al hacer que un grupo, generalmente tengo dos APC interruptores para la PSU:s y configurar "APC esgrima" (stonith -t apcmaster -h). De esa manera, cuando un nodo falla, el otro preforma un reinicio por ciclos de encendido de la defectuosa miembro a través de la tala en el APC de la interfaz y el envío de apagar/reiniciar el comando de encendido conectado la fuente de alimentación ranuras (de dos a evitar un único punto de fallo).

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: