3 votos

Dirección IP de arañas y robots de la web "oficial"

¿Hay un API oficial para iplists.com de donde puedo conseguir la lista de las arañas?

Mi intención es blanca estas IPs para rascar el sitio.

8voto

voretaq7 Puntos63415

No que yo sepa, y pueden cambiar en cualquier momento a discreción de la bot operadores.

Google ofrece algunas orientaciones específicas y la explicación en este:

El problema con eso es que si/cuando los intervalos de IP de nuestros rastreadores cambio, no todo el mundo sabe a comprobar. De hecho, el equipo de rastreo migrado Googlebot IPs hace un par de años y fue una verdadera molestia alertar a los webmasters que había codificado un rango de direcciones IP.

y que sugieren el uso de una verificación DNS (forward y reverse) para verificar:

Decirle a los webmasters para utilizar DNS para verificar caso por caso parece como la mejor manera de ir. Creo que la técnica recomendada sería hacer una búsqueda inversa de DNS, compruebe que el nombre está en la googlebot.com de dominio y, a continuación, hacer un DNS directo->IP lookup uso que el robot de google.com nombre; por ejemplo:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

No creo que acaba de hacer una búsqueda inversa de DNS es suficiente, porque una spoofer podría configurar inversa de DNS para que apunte a rastreo-a-b-c-d.googlebot.com.

Este es probablemente el mejor consejo general, pero es algo intensiva de recursos (ciclos de CPU para las búsquedas de DNS).

1voto

Michael Hampton Puntos88271

No hay una lista de direcciones IP para los "buenos" robots de motores de búsqueda, que yo sepa, y si existiera sería terriblemente fuera de fecha con bastante rapidez, como ya has descubierto.

Una cosa que usted puede hacer es crear un robot trampa. Esto es simple en teoría: crear una página que está vinculado en su sitio web, pero oculta a usuarios normales (por ejemplo, a través de CSS tricks) y, a continuación, Disallow en robots.txt. Usted, a continuación, esperar una semana desde legítimos de los motores de búsqueda pueden almacenar en caché robots.txt durante largo tiempo, a continuación, empezar a prohibir cualquier cosa que llega a la trampa de la página (por ejemplo, con fail2ban).

EnMiMaquinaFunciona.com

EnMiMaquinaFunciona es una comunidad de administradores de sistemas en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros sysadmin, hacer tus propias preguntas o resolver las de los demás.

Powered by:

;