Bloquer les aspirateurs avec robots.txt

3ul3r · 19 Août 2009

Bonjour à tous,

Je cherche à bloquer les principaux aspirateurs/web copier/off-line browser et autre joyeusté qui bouffe ma bande passante (et peuvent causer des problèmes de droit d'auteur).
J'ai vu que WRI him-self utilise en tant que barrière. Je peux directement copié-collé cette liste, elle ne contient que des user-agent d'aspirateurs ?

PS : Je sais que certains aspirateurs permettent une option pour ignorer les règles de robots.txt, et que, si une personne veut à tout prix aspirer un site, elle y arrivera. Mais si les principaux aspirateurs sont bloqués par défaut, ca découragera la majorité, et je déjà serais content.

Furtif · 19 Août 2009

cool le piege a robot...

:mrgreen:

skippyzrnr · 20 Août 2009

Le robots.txt s'adresse au programmes qui jouent le jeu... et je suis pas si sûr que ces programmes d'aspiration le fasse.
Une protection du même type dans un .htaccess est bien plus fiable, et pour ceux qui changent le user-agent, l'idéal est encore un blocage par ip...
Mais comme tu le dis si bien si une personne veut à tout prix aspirer un site, elle y arrivera.

3ul3r · 20 Août 2009

Merci de vos réponses, je vais opter pour un blocage avec le htaccess, en plus du robots.txt

3ul3r · 20 Août 2009

On trouve un peu partout une liste des user-agents d'aspirateurs à bloquer, datant de 2005 (et provenant du site www.toulouse-renaissance.net, maintenant en parking).

N'y aurait-il pas une liste plus récente ?

3ul3r · 20 Août 2009

Je viens de lire une bonne partie des topics WRI parlant des blocages d'aspirateurs Web. La méthode la plus efficace ressortant est de limiter, avec un script PHP, le nombre de chargement de page par minute, et de bannir (au moins temporairement) l'IP si cette limite est dépassé.

Cependant, le site web dont je suis admin contient énormément de petits documents PDF (dont une partie c'est faite aspirée pas plus tard que hier soir :/). Ce n'est donc pas une limitation des chargements de page qu'il me faudrait, mais une limitation du nombre de hits par minute, ou une limitation de bande passante allouée par minute et par IP.
Comment mettre en place un tel système ? htaccess permet ça ?