1 votos

no se puede recuperar un nodo gluster fallido

He creado un glusterfs (6.1) el grupo con 6 servidores (node01 - node06) en Replicar (=6) el modo, pero no puede recuperarse de un error de servidor (node01, esta vm fue de reset/reconstruido pero quiero mantener su nombre de host/ip) siguiendo este tutorial (https://support.rackspace.com/how-to/recover-from-a-failed-server-in-a-glusterfs-array/):

  • Puedo agregar node01 al clúster mediante la obtención de UUID de un servidor en ejecución (gluster pares de estado) y la actualización de "/var/lib/glusterd/glusterd."información de archivo (node01)

  • He actualizado los atributos extendidos (de confianza.glusterfs.volumen-id) de node01 directorio y se reinicia gluster servicio:

sudo setfattr -n de confianza.glusterfs.volumen-id-v hash /datos/brick1/vol

sudo systemctl restart glusterd

sudo gluster volumen sanar vol completo

sudo gluster volumen sanar vol info

  • registros y salidas:

sudo gluster estado de volumen

Brick node01:/data/brick1/volr              N/A       N/A        N       N/A
Brick node02:/data/brick1/volr              49152     0          Y       5734
Brick node03:/data/brick1/volr              49152     0          Y       5733
Brick node04:/data/brick1/volr              49152     0          Y       5691  
Brick node05:/data/brick1/volr              49152     0          Y       5721  
Brick node06:/data/brick1/volr              49152     0          Y       5723

sudo gluster volumen sanar vol completo

Launching heal operation to perform full self heal on volume volr has been successful
Use heal info commands to check status.

sudo gluster volumen sanar vol info

Brick node01:/data/brick1/volr
Status: Transport endpoint is not connected
Number of entries: -

Brick node02:/data/brick1/volr
Status: Connected
Number of entries: 0

Brick node03:/data/brick1/volr
Status: Connected
Number of entries: 0

Brick node04:/data/brick1/volr
Status: Connected
Number of entries: 0

Brick node05:/data/brick1/volr
Status: Connected
Number of entries: 0

Brick node06:/data/brick1/volr
Status: Connected
Number of entries: 0

Cualquier ayuda sería muy apreciada.

0voto

Deltik Puntos 4261

Yo era capaz de reproducir el problema con exactamente los mismos síntomas.

Correctamente se asomó a la reinstalado nodo, node01, pero el ladrillo procedimiento de sustitución no está bien documentado.

La documentación oficial tiene algo de extraño instrucciones para cambiar el defectuoso el ladrillo en lugar de uno nuevo con un nombre diferente. Es innecesariamente complicado, y creo que usted quiere usar el mismo nombre de ladrillo.

Ustedes no fueron capaces de conseguir el ladrillo de la ejecución, porque la sustitución de ladrillo no tiene metadatos necesarios almacenados en node1:/data/brick1/volr/.glusterfs.

Esto es lo que hice para sustituir el ladrillo:


Suponiendo que:

  • node01 es el servidor reconstruido que ya ha sido miró,
  • hay un volumen llamado vol, y
  • el ladrillo ser reemplazado es node01:/data/brick1/volr

Hacer lo siguiente:

  1. En node01, cierre de GlusterFS:

    sudo killall -9 glusterd glusterfsd glusterfs
    
  2. Quitar el ladrillo tiene un borrón y cuenta nueva:

    sudo rm -rfv /data/brick1/volr
    
  3. Crear el ladrillo de la carpeta de nuevo:

    sudo mkdir -pv /data/brick1/volr
    
  4. Reinicie glusterd.service:

    sudo systemctl restart glusterd.service
    
  5. Restablecer el ladrillo:

    sudo gluster volume reset-brick vol node01:/data/brick1/volr node01:/data/brick1/volr commit
    
  6. Si el proceso de curación no ha empezado ya, de inicio es:

    sudo gluster volume heal vol full
    

Recursos Adicionales

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: