Quelle politique face aux bad bots (scrapper) ?

Nouveau WRInaute
Bonjour,

Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.

C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)

Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.

Je l'ai inclus dans mon fichier robots.txt :

Code:
User-agent: nom_du_bot
Disallow: /

Mais il ne respecte pas les directives.

J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.

Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.

sa réponse :
Par ailleurs, à confirmer, mais des services similaires comme netvibes ne tiennent pas comptent du robots.txt il me semble. (Attention toutefois je ne dis pas que si eux ne le font pas, je ne devrais pas le faire aussi)

Alors je peux faire un .htaccess du type :

Code:
order allow,deny
allow from all

deny from 82.234.98.112

mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?

(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
 
WRInaute passionné
si ton site est down à cause de lui c'est du denial of service

moi je me suis fait scanner par un imbecile qui utilisait acunetix

le mec m'a scanné 5 fois (comme si une fois ça suffisait pas) sur mes 2 services online il a ouvert 16000 pages

c'est la derniere fois que quelqu'un me scannera avec acunetix, j'ai les query string et je vais pondre un filtre

pour les bots, c'est pareil, faut ouvrir les logs et trouver un unic id

rog
 
Discussions similaires
Haut