2 votos

Google-Bot se enamoró de mi página 404

Cada día mi registro de acceso se ve algo así:

66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /vuqffxiyupdh.html HTTP/1.1" 404 1189 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

o esto

66.249.78.140 - - [20/Oct/2013:09:25:29 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.62 - - [20/Oct/2013:09:25:30 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [20/Oct/2013:09:25:30 +0200] "GET /zjtrtxnsh.html HTTP/1.1" 404 1186 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

El bot llama al robots.txt dos veces y después intenta acceder a un archivo (zjtrtxnsh.html, vuqffxiyupdh.html, ...) que no puede existir y debe devolver un error 404. El mismo procedimiento todos los días, solo cambia el nombre del archivo html inexistente.

El contenido de mi robots.txt:

User-agent: *
Disallow: /backend
Sitemap: http://mysitesname.de/sitemap.xml

El sitemap.xml es legible y válido, por lo que no parece haber ninguna razón por la que el bot quiera forzar un error 404.
¿Cómo debo interpretar este comportamiento? ¿Apunta a algún error que haya cometido o debo ignorarlo?


ACTUALIZACIÓN
@malware Escaneé mi sitio web con varias herramientas en línea, no se encontró nada.
No tengo ninguna de las aplicaciones estándar en el servidor como wordpress o phpmyadmin.
Recibo un logwatch todos los días y no hubo acceso ssh no autorizado ni nada por el estilo.
Tengo fail2ban configurado.
He restringido el acceso ssh a clave pública, no se permite el inicio de sesión como root.
No hubo ninguno de los comandos sudo que logwatch reportó que no pudiera reconocer como cosas que había hecho ese día.
No hay ningún archivo en mi directorio web que sea nuevo o no creado por mí o que parezca extraño (bueno, no puedo garantizar al 100%, pero todo parece estar bien).
He realizado un escaneo completo con clamscan en el servidor sin ningún resultado.
Los paquetes de software están actualizados.

¿Qué más puedo hacer?

2voto

Port Puntos 136

En resumen: Si mi memoria me sirve correctamente. Es para verificar las páginas 404 en tu sitio.

Respuesta más larga: Las personas crean páginas de error 404 personalizadas y luego olvidan cambiar el código de estado de la página. Al final, devolverás páginas de error 404 personalizadas con el encabezado de estado como 200 ok cuando Google bot intente acceder a una URL no válida. Ahora el bot tiene que tomar una decisión. Para ayudarlo en esta toma de decisiones, intenta golpear tu servidor con una URL generada aleatoriamente que tenga una alta probabilidad de no estar en tu sitio y verificar cuál es la respuesta para el sitio cuando se solicita una página no encontrada.

Como dije, no estoy 100% seguro al respecto.

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X