Nouveau WRInaute
Bonjour,
Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.
C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)
Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.
Je l'ai inclus dans mon fichier robots.txt :
Mais il ne respecte pas les directives.
J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.
Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.
sa réponse :
Alors je peux faire un .htaccess du type :
mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?
(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.
C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)
Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.
Je l'ai inclus dans mon fichier robots.txt :
Code:
User-agent: nom_du_bot
Disallow: /
Mais il ne respecte pas les directives.
J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.
Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.
sa réponse :
Par ailleurs, à confirmer, mais des services similaires comme netvibes ne tiennent pas comptent du robots.txt il me semble. (Attention toutefois je ne dis pas que si eux ne le font pas, je ne devrais pas le faire aussi)
Alors je peux faire un .htaccess du type :
Code:
order allow,deny
allow from all
deny from 82.234.98.112
mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?
(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)