Propagation du robots.txt ?

pr tournesol · 19 Juillet 2005

Bonjour à tous,

Je viens de mettre en place su mon site en place un sytème pour détécter les accès des robots au robots.txt. Grâce à ce système, j'enregistre les IPs dans une base, et je pourrai donc les suivre tout au long de leur visite.

Le problème, c'est que d'après ce que j'ai pu lire partout sur les forums, les robots ne passent pas à chaque fois dans robots.txt.

D'ou, m'a question : savez-vous si google ou slurp, etc... peuvent après avoir lu le robots.txt une première fois, revenir lors d'un crawl ultérieur avec une adresse DIFFERENTE de celle utilisée la première fois, et ceci SANS passer par le robots.txt ?

En gros, le robots.txt se propage-t-il dans les fermes de spiders ou est-ce que chacun gère sa propre copie de robots.txt ?

Merci si vous avez des réponses... et bonne vacances à tous !

dmathieu · 19 Juillet 2005

des qu'un crawler est passé sur un site, ses infos sont transmises à tous les crawlers.
si un googlebot passe sur ton site, tous les autres robots (ips) auront les infos, et heureusement.
donc, oui, le robots.txt se propage à tous les spiders d'un meme moteur

pr tournesol · 19 Juillet 2005

KaZhaR, merci pour ta réponse qui est on ne peut plus claire.

Sais-tu si il est possible de détécter tous ces robots de manière certaine par leur ip ?
Par exemple en comparant seulement les 3 premières séries de chiffre de l'ip précédement trappée et de la nouvelle qui se présente ?
Ou bien Google peut-il tout simplement passer la première fois lire le robots.txt 164.71.1.149 et propager l'info à 216.239.41.98
(c'est un exemple !).

En gros : le robots.txt se propage-t-il entre toutes les fermes...?

Merci...

dmathieu · 19 Juillet 2005

entre toutes les fermes ??
entre les différents moteurs ?
bien sur, google va aller donner ses informations d'indexation à msn ... :roll:
non bien evidemment que non, ca se propage pas entre moteurs.

apres, pour avoir la liste de tous les robots, je te conseille tout simplement d'installer robostats, il y a un forum prévu pour sur wri, et tu a une table avec toutes les ips connues.
il suffit apres de surveiller regulierement, si il n'y en a pas de nouvelles