Comment Eviter l'Aspiration d'un Site Web ?

WRInaute discret
Bonjour,

Ce matin en regardant mes stats je vois que Web Downloader et WebCopier sont venus aspirer mon site.

Quel est la meilleure solution pour éviter cela ? Mes pages sont principalement en HTML.

Merci d'avance et bonne journée.
 
WRInaute discret
Tu peux te servir de ton .htaccess en placant du code comme cela :

Code:
RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} "Collage" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Custo" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Download Wonder" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "ESIRover" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "GetBot" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "GetURL" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "GetWeb" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "HavIndex" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "httrack" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "InfoSpiders" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Internet Explore" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Jeeves" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "jpeg hunt" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "KDD Explorer" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "LightningDownload" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "PBWF" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Shai'Hulud" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "SpiderBot" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "ssearcher100" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Templeton" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "vobsub" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "w3mir" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebBandit" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebCatcher" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "webcopier" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebCopy" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebFetcher" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebMirror" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebReaper" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "webvac" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebWalk" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "wGet" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "xGet" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "atSpider" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "autoemailspider" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "cherrypicker" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "DSurf" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "DTS Agent" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "EliteSys Entry" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "EmailCollector" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "EmailSiphon" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "EmailWolf" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Mail Sweeper" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "munky" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Roverbot" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "eCatch" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "MemoWeb" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "Teleport Pro" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCopier" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebZIP" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "WebEmailExtrac" [NC] 
RewriteRule .* - [F,L]
 
WRInaute discret
Merci beaucoup, je préfères utiliser le fichier .htaccess plutôt qu'un script, cela m'amène à 3 questions subsidiaires :

1) Cela ralenti t'il l'accès aux pages du site ?

2) Comment mettre à jour cette liste d'aspirateurs, y-a t'il un site où retrouver tous ces critères pour la mettre à jour ?

3) Est-il possible via le .htaccess d'éviter de retrouver son site dans les frames d'un autre, c'est à dire faire l'équivalent d'un script du style

if (top.frames.length!=0) {
if (window.location.href.replace)
top.location.replace(self.location.href);
else
top.location.href=self.document.href;
}

Encore merci !
 
WRInaute impliqué
il y a aussi la solution php :

pour chaque page tu log l'ip du visiteur et l'heure et tu incrémente son compteur dans une table sql.
puis tu teste qu'il ne visite pas plus d'une dizaine de pages a la minute.

si c'est le cas tu ne lui présente plus la page , mais une belle page 403 et tu bani son ip pour au moins toute la journée.
 
WRInaute discret
Rackham a dit:
Bonjour,

Ce matin en regardant mes stats je vois que Web Downloader et WebCopier sont venus aspirer mon site.

Quel est la meilleure solution pour éviter cela ? Mes pages sont principalement en HTML.

Merci d'avance et bonne journée.

c'est absolument impossible, si tu as quelqu'un de déterminé face à toi !!!
toutes les solutions existantes sont aisément contournables, même le problème de l'ip ...


wizzman.
 
WRInaute passionné
vespa>lorsque j'essaye ton code, la page de mon site ne s'affiche pas, une erreur s'affiche comme quoi la requete n'a pas pu etre etablie ?! Comment se fait t-il ?
 
Membre Honoré
Rackham a dit:
Ce matin en regardant mes stats je vois que Web Downloader et WebCopier sont venus aspirer mon site.
Moi perso j'en aspire des fois pour les regarder sur mon pc qui a pas le net :oops: et quand un site est beau j'ai toujours peur qu'il disparaisse (sa m'est arriver une fois) et je suis dégouter de plus voir cela :cry:
 
WRInaute impliqué
Est-ce que les HTTP_USER_AGENT sont toujours d'actualité ? et est-ce que cela ne risque pas de ralentir ou nuire au référencement de GG ? Je vais lancer ma nouvelle version et je souhaiterai éviter les aspirateurs.....

J'avais oublié, vaut-il mieux installé un iptrace ?
 
WRInaute discret
Perso je fais comme dit au dessus, je stocke pour chaque page l'heure et l'ip.
A coté de çà j'ia un cron qui verifie toutes les 10 secondes le nombre de page affichée dans la minute par une même ip. Au dessus de 30 c'est ban pour la journée.

Je comprend totalement que des gens aient envie ou le besoin d'aspirer un site ou une partie de celui ci dans un but de consultation hors ligne ou pour se prémunir d'une suppression de celui-ci.
Maintenant que je vois des abrutis aspirer plusieurs milliers de photos dans la journée, ou aspirer le forum....
 
WRInaute accro
Tester le User Agent est une solution un peu naïve, sachant qu'avec la plupart des soft on peu aisément le changer (avec HTTRACKS c'est l'enfance de l'art par exemple).

Donc l'idée de procéder par IP de ludoanimation me semble déjà plus réaliste, même si contournable.

Ceci dit ca limite déjà bien.
 
WRInaute impliqué
UsagiYojimbo a dit:
Donc l'idée de procéder par IP de ludoanimation me semble déjà plus réaliste, même si contournable.

Pour compliquer le "contournable" ou peut également ajouter un guet-apens :

un lien quelque part sur image de 1x1 pixiel - si suivi ban car un humain ne peut pas le suivre ( en oubliant pas de mettre ce lien en nofollow et interdit dans le robot.txt pour ne pas banir google)
 
WRInaute discret
C'est hasardeux quand meme le liens sur une carré de 1px, et assez risqué.
L'idée de l'ip est la plus fiable.
Ca ne ralenti pas les perfs, ou invisible, ca ne nuit pas au référencement, et quand bien même l'aspireur limite a 20 pages par minutes, son robot, c'est toujours moins catastrophique que s'il fait çà a raison de 1000 pages à la minutes.
A defaut de s'en prévenir, ca limite les conséquences.

Nan honnêtement le systeme sur l'ip ca va pas mal, avec ban automatique pour la journée.
Je n'ai jamais vu un seul moteur se faire bannir avec ce système.
 
Discussions similaires
Haut