9 votos

La realización de un análisis de causa root

Quiero aprender más acerca de cómo realizar un análisis de causa root. Más veces que no, nuestro departamento se indica al usuario que intente reiniciar (su sistema de Windows XP), que en realidad se "arregla" un buen número de problemas. Cuando estoy en un apuro (y a veces pagan por hora contribuye a esto) yo podría tratar de encontrar una solución para resolver el problema rápidamente, en vez de la realidad, la realización de análisis de causa root.

La mayoría del tiempo estoy buscando en los archivos de registro o el visor de sucesos para obtener esta información. A veces voy a utilizar las herramientas de Sysinternals o ejecutar de vez en cuando un sniffer de paquetes. Probablemente yo no uso el Sysinternals programas tanto como debería. Algunos específico idea sobre cómo usar la que pf estas herramientas, cuándo y por qué también sería útil.

Sé que esto es una gran pregunta abierta, pero podría usted por favor, explique brevemente su metodología, herramientas, etc. que usted usa? Se parece a un montón de administradores en SF usar una más en profundidad el proceso que me gustaría aprender más acerca de. Si esto ayuda a reducir la cuestión, me gustaría estar más interesados en las herramientas, consejos, trucos, etc. relevantes para Windows servidores y clientes dentro de un ANUNCIO entorno.

5voto

voretaq7 Puntos 63415

Averiguar la causa root de un problema depende del problema, Su instinto inicial de buscar en los archivos de registro/herramientas de sysinternals/packet sniffers es correcta en general.
Me gustaría añadir que ejecuta el MS de Eliminación de Software Malintencionado Herramienta y un buen programa AV en los sistemas Windows (y asegurarse de que no tienen algo así como CyberDefender u otros AV-trojan-malware.

La gente en el Intercambio de la Pila son los defensores de los "5 Porqués" (método dehttp://en.wikipedia.org/wiki/5_Whystambién este bonito corto PDF que muestra en acción). Es una muy valiosa herramienta para realizar análisis de la causa root.


Más allá de que voy a pintar dos categorías amplias y algunas de las preguntas que me suelen preguntar/cosas que revisar:

Misterioso comportamiento no relacionado con la red
por ejemplo, "la Palabra se bloquea continuamente en mí"

Preguntas básicas para preguntar:

  1. Lo Que Ha Cambiado?
    (No tomar "nada" para una respuesta, es la primera mentira. El nuevo software, parches, etc. todos cuentan.)
  2. ¿Qué estabas haciendo cuando tuvo el problema?
    (Tratar de extraer la mayor cantidad de detalles posible aquí, en mi ejemplo anterior "me golpeó el atajo de teclado para insertar iniciales y el programa se estrelló")
  3. Lo hizo alguna vez el trabajo antes?
    (Si es así, empezar a mirar cosas de (1) más arriba)
  4. Puede reproducir el problema en su sistema?
    (Si es así que es una buena señal: Una tecnología llamada de soporte técnico del proveedor de servicios puede ayudar. Si no tendrás que buscar en el sistema del usuario para el resto de estas preguntas.)
  5. Lo que es diferente sobre el entorno del usuario de su entorno?
  6. Es el hardware del usuario sospechoso (Ejecutar una prueba de memoria, busque errores SMART de la unidad de disco duro, etc.)
  7. Si usted ha llegado hasta este punto (comprobaciones de hardware, software de los cheques, no hay virus, ni malware) ir a visitar el usuario para un día. Observar sus hábitos de trabajo.
    Mi empresa una vez había un misterioso sistema de lock-up relacionados con hacer clic con el ratón en una frecuencia específica (todavía no sabemos por qué, pero tuvimos que ver a un usuario haciendo y práctica para un día en el fin de ser capaz de reproducir de forma fiable)

Los problemas relacionados con la red

Mucho de esto es similar, pero con una orientación más específica.

  1. Lo Que Ha Cambiado?
    (Sí, siempre empezar por ahí)
  2. Lo que está roto?
    • Se puede llegar a las páginas web? Es sólo uno que está abajo? Si es así Es para todo el mundo o solo a usted?
    • Puede hacer ping cosas en internet por su nombre?
      ¿Por IP? ¿En qué medida el traceroute conseguir?
  3. Cuando está roto?
    • Siempre a la misma hora del día?
    • Por un breve periodo, para cada N días?
    • Al azar (es REALMENTE aleatorio? Parcela en un calendario...)
  4. Hay algo raro en el sitio remoto?
    • Mira DNS - Si es round-robin había allí podría ser remoto del lado de la rotura
    • Estamos hablando sobre el otro extremo de la VPN? ¿Qué pasa con la VPN (logs!)?
  5. Hay algo raro en el sitio local?
    • Revisa tu firewall local
    • Compruebe cualquier "software de filtrado"
  6. Consulte con su ISP para ver si hay algún problema conocido
  7. Compruebe los sitios como http://www.internetpulse.net/ conocido por toda la red, problemas de
  8. Retirar la máquina del usuario
    (Configuración de TCP, etc. - Normalmente no es el problema, pero a veces.)

1voto

Greg Askew Puntos 17236

Además de las excelentes respuestas tan lejos, me gustaría añadir:

  • Identificar la fecha/hora de emisión de inicio. Esto puede parecer obvio, pero he visto demasiadas cuestiones en las que no estaba documentado y más tarde en suposiciones incorrectas fueron hechas. Esto se correlaciona bien con el "¿qué ha cambiado" paso.

  • Es el problema reproducible o intermitente? Esto es fundamental, como reproducible síntomas son mucho más rápido y más fácil de resolver que los que son intermitentes. Si es reproducible, asegurar los pasos que se están documentados.

  • Identificar el síntoma(s). Tenga en cuenta que podemos distinguir entre el "síntoma", que es una manifestación de la causa root, y el real problema/causa root.

    1. Hay otras actividades que pueden reproducir el síntoma?
    2. ¿Qué otros síntomas hay?
    3. Si el problema es intermitente, podemos identificar una actividad que hará que se producen?
    4. Bajo qué circunstancias podemos evitar el síntoma de que ocurra? ¿El problema se produce sólo cuando se ha iniciado sesión con una cuenta de red, pero funciona bien si ha iniciado sesión localmente? ¿El problema se produce cuando se inicia sesión como un usuario normal, pero funciona bien si ha iniciado sesión con privilegios elevados? Ocurre sólo en un sistema, pero otro sistema que debe ser similar que no presentan el síntoma?
  • Localizar el problema a un probable defectuoso de los componentes funcionales. Si hay un error en una aplicación web, es que en el código de la aplicación, el servidor web, el sistema operativo que aloja el servidor web, la red o el extremo remoto? Este es el mejor-supongo que en este punto de modo que los recursos se centran en la causa probable, así que asegúrese de que los demás sepan que esto es teoría/conjetura.

  • Pregunta de sus supuestos, y tratar de recoger datos empíricos para apoyar a apoyar los supuestos y conclusiones. Es bastante mala sensación de decirle a alguien que no hay un problema con x, y se descubrió más tarde que en realidad hay. Normalmente cuando hay una solución incorrecta, podría haber sido de datos en apoyo de una solución correcta.

0voto

Suena como que usted está pidiendo general de la solución de problemas tales como Sus reglas de solución de problemas, enfoque a la solución de problemas? más que hacer un tipo particular de RCA ( http://en.wikipedia.org/wiki/Root_cause_analysis).

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by: