Bloquer les aspirateurs avec robots.txt

WRInaute discret
Bonjour à tous,

Je cherche à bloquer les principaux aspirateurs/web copier/off-line browser et autre joyeusté qui bouffe ma bande passante (et peuvent causer des problèmes de droit d'auteur).
J'ai vu que WRI him-self utilise en tant que barrière. Je peux directement copié-collé cette liste, elle ne contient que des user-agent d'aspirateurs ?

PS : Je sais que certains aspirateurs permettent une option pour ignorer les règles de robots.txt, et que, si une personne veut à tout prix aspirer un site, elle y arrivera. Mais si les principaux aspirateurs sont bloqués par défaut, ca découragera la majorité, et je déjà serais content.
 
WRInaute impliqué
Le robots.txt s'adresse au programmes qui jouent le jeu... et je suis pas si sûr que ces programmes d'aspiration le fasse.
Une protection du même type dans un .htaccess est bien plus fiable, et pour ceux qui changent le user-agent, l'idéal est encore un blocage par ip...
Mais comme tu le dis si bien si une personne veut à tout prix aspirer un site, elle y arrivera.
 
WRInaute discret
Merci de vos réponses, je vais opter pour un blocage avec le htaccess, en plus du robots.txt
 
WRInaute discret
Je viens de lire une bonne partie des topics WRI parlant des blocages d'aspirateurs Web. La méthode la plus efficace ressortant est de limiter, avec un script PHP, le nombre de chargement de page par minute, et de bannir (au moins temporairement) l'IP si cette limite est dépassé.

Cependant, le site web dont je suis admin contient énormément de petits documents PDF (dont une partie c'est faite aspirée pas plus tard que hier soir :/). Ce n'est donc pas une limitation des chargements de page qu'il me faudrait, mais une limitation du nombre de hits par minute, ou une limitation de bande passante allouée par minute et par IP.
Comment mettre en place un tel système ? htaccess permet ça ?
 
Discussions similaires
Haut