SCRIPTS

WRInaute discret
Je voudrais savoir s il est possible d avoir un script empechant l enregistement des pages webs et par les aspirateurs de sites dans le but
 
WRInaute impliqué
peut m'importe le but, je peux te repondre :)

c'est theoriquement impossible, car a partir du moment ou un site est disponible publiquement, c'est qu'on peut en lire et en interpreter la source..

en pratique il y a des solutions pour rendre infernal le pompage de site, et decourager les plagieurs les plus enervés ; mais bon les trucs qui te transforment ton site en une ligne de code javascript, moi je trouve ca nul.. et d'autres t'en parleront mieux que moi.

si tu as un site enorme, et que tu es gene par les robots aspirateurs, il y a le fichier robots.txt , mais tous les robots aspirateurs ne le respectent pas, et certains sur ce forum ont propose deja des trucs pour empecher un maximum de robots indesirable de scanner le site.
 
WRInaute passionné
fbparis a dit:
mais bon les trucs qui te transforment ton site en une ligne de code javascript, moi je trouve ca nul..

Oui, surtout que la plupart des bots n'interpretent pas le javascript, donc en fesant ça tu mets tu referencement à la poubelle :cry:
 
WRInaute discret
Salut,

intègre ça dans un htaccess :

Options +FollowSymlinks
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} .*almaden.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Anarchie$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Aspi [OR]
RewriteCond %{HTTP_USER_AGENT} ^ASPSeek$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^attach [OR]
RewriteCond %{HTTP_USER_AGENT} ^autoemailspider$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^BatchFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Blackstreet [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^Buddy [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bullseye$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^bumblebee$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Caitoo [OR]
RewriteCond %{HTTP_USER_AGENT} ^capture$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^CICC$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^clipping$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^collage$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Copier [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Curl [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^DA [OR]
RewriteCond %{HTTP_USER_AGENT} ^diagem$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo\ Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ for\ X [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Wonder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip [OR]
RewriteCond %{HTTP_USER_AGENT} ^DTS\ Agent$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^dual$proxy$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^easydl [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Eclipt\ Mirroring\ Tool [OR]
RewriteCond %{HTTP_USER_AGENT} efp@gmx\.net [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Faxobot [OR]
RewriteCond %{HTTP_USER_AGENT} fetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^FileHound [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashSite [OR]
RewriteCond %{HTTP_USER_AGENT} FlipDog [OR]
RewriteCond %{HTTP_USER_AGENT} FrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetSmart [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^gigabaz$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^GNU\ Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GornKer [OR]
RewriteCond %{HTTP_USER_AGENT} ^gotit [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grab [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^Greed [OR]
RewriteCond %{HTTP_USER_AGENT} ^grub [OR]
RewriteCond %{HTTP_USER_AGENT} ^hloader$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^Htget [OR]
RewriteCond %{HTTP_USER_AGENT} ^httpdown$ [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^iFox98 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^imagefetch$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy$Library$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Indy\ Library$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^informant$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^inSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Interarchy [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Angel [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Marauder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetSeer.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^IpiumBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Iria [OR]
RewriteCond %{HTTP_USER_AGENT} ^Irvine [OR]
RewriteCond %{HTTP_USER_AGENT} ^JBH$Agent$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^JustView [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^LexiBot$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^lftp [OR]
RewriteCond %{HTTP_USER_AGENT} ^likse [OR]
RewriteCond %{HTTP_USER_AGENT} ^Link [OR]
RewriteCond %{HTTP_USER_AGENT} ^LNSpiderguy [OR]
RewriteCond %{HTTP_USER_AGENT} ^lotus$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp$trivial$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Magnet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mag-Net [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Memo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mhtml [OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Monica [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR]
RewriteCond %{HTTP_USER_AGENT} ^MSFrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} ^MSProxy$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^multithreaddb$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^NavigatorCompanion [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAttaché\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} NetGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Networkz [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZip [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^NPBot\ $ [OR]
RewriteCond %{HTTP_USER_AGENT} ^obot$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline [OR]
RewriteCond %{HTTP_USER_AGENT} ^Openfind$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Page\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^PersonaPilot$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ping [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey [OR]
RewriteCond %{HTTP_USER_AGENT} ^Proxy$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^psbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^QRVA$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Reaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Recorder [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^replacer$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^SearchExpress$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Seeker$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Site\ Eater [OR]
RewriteCond %{HTTP_USER_AGENT} ^sitecheck.internetseer.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Slurp$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^SlySearch$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartBud [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^snagger$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snake [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snarf [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sqworm$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Strip$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} Surf15a [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surf$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^surfcontrol$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^SurfWalker$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^SurveyBot$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Szukacz$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^turingos$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^TV33_Mercator$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^URLSpiderPro$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vacuum [OR]
RewriteCond %{HTTP_USER_AGENT} ^vagabondo$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^vayala$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^visibilitygap$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^W3mir [OR]
RewriteCond %{HTTP_USER_AGENT} ^watcher$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Buddy [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Devil [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Retriever [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Tondeuse [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web@pc [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebMirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} ^webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebDown [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebHook [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebMiner [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebMirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebRecorder [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^WEBsaver [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSnake [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebVCR [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Whacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WinDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wweb$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWCopy [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWoffle [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wysigot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^X-FileGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^x-Tractor$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg$ [OR]
RewriteRule .* - [F,L]


Je ne sais pas si la liste a augmenté (surement depuis) mais tu peux mettre déjà ça, ça en bloquera pas mal :-)

a +
 
WRInaute discret
Ca risque pas de faire ramer puissament son site ?

De toute manière un aspirateur motivé se contentera de se faire passer pour IE non ?

Une solution c'est de limiter le nombre de pages ouvertes par une même personne... mais peut poser des soucis avec les fanatiques de firefox et de ses onglets.

Certains hébergeurs ont des scripts de blocages de ces cochoncetés quand ils détectent que c'est vraiment trop rapide et persistant.
 
WRInaute discret
ben si... adresse IP, microtime, et identifiant de la page :) et tu compares les ouvertures... si elles s'enchainent en nombre et très rapidement : bot, blocage.
 
WRInaute discret
oui ok mais ce que je veux dire par là c'est que tu ne peux pas contrôler qu'un internaute CONSULTE deux pages en même temps ;-)

par contre pour l'ouverture très proche oui tu peux, mais les aspirateurs te permettent de régler le nombre de pages à aspirer par seconde.
 
WRInaute discret
Vouais mais à partir d'une page à la seconde ca devient très long pour lui de choper ton site, et quand bien même tu peux toujours bricoler pour qu'un type qui ouvre 30 pages en moins d'une minute soit bloqué pour 30 secondes.

Si le problème de consommation de bande passante est aussi important, alors ca peut justifier une mesure aussi extrême. Faut vraiment être un surfer ultimate pour aller à une pareille vitesse !
 
WRInaute discret
oui ok, ce que je veux dire c'est qu'aucune solution n'est efficace à 100 % pour arrêter quelqu'un qui veut pomper ton site;-)
 
WRInaute discret
Voui c'est clair, mais bon t'as des paliatifs pour se protéger un minimum.

Si qqn est vraiment ultra charette niveau bande passante et qu'il peut pas avoir un hébergement supérieur, c'est des méthodes possibles.

Les aspirateurs de sites sont quand même de moins en moins fréquents désormais, l'adsl étant généralisé, on ne gaspille plus trop son temps à archiver des sites entiers, d'autant que les contenus étant dynamiques désormais... ils changent souvent :P

J'avoue j'ai utilisé des aspirateurs pour pourraver des sites que j'aimais pas en revanche ^^ les pauvres, j'en ai consommé de la bande passante :P mine de rien avec du 1024 tu consommes ^^
 
WRInaute passionné
J'ai testé ton sript.

Il marche :!: :!: :!:

C'est génial... même mes visiteurs avec Mozilla par exemple, il n'ont plus d'accès !
Vive le 0 Mo de bande passante :wink:

Sérieux ; il y à pas un problème
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut