Aspirateur de site web (.htaccess + script)

Ohax

WRInaute accro
Salut,

j'ai prit la decition de faire un htaccess trés restrictif ainsi qu'un script qui bloque les ip affichants plus de 30 pages / minute...

je ne pense pas que cela bloquera les moteurs (j'espère que non)

le htaccess va me permettre de faire "le gros" et le script de faire la finition


j'ai décidé de faire cela quand j'ai vu tout à l'heure des couillons qui se sont amusés à aspirer mon forum qui contient tout de même 30 000 messages sans compter le forum airsoft que je possède aussi...

au final j'ai les centaines de milliers de hits pour aujourd'hui.....

je sait pas comment sivit va réagir mais bon... je vient de faire le nécésaire pour que ce ne se reproduise plus


Il faut être vraiment con pour aspirer un forum, aujourd'hui il n'y en à pas eu qu'un seul...

quelle est votre expèrience en ce domaine?

30 pages par minute maximum cela est-il suffisament efficace?
Cela ne risque pas de bloquer google? pasque ça me ferai vraiment chier de google me crawl 15000 pages avec juste un "Ip interdite" ...


voici mon htaccess le trouvez vous trop restrictif?

merci à vous:


Code:
# ATTENTION LISTE DES USER_AGENT NON VERIFIEE

RewriteCond %{HTTP_USER_AGENT} ^-?$ [OR]
RewriteCond %{HTTP_USER_AGENT} Advanced\ Email\ Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} almaden [NC,OR]
RewriteCond %{HTTP_USER_AGENT} @nonymouse [OR]
RewriteCond %{HTTP_USER_AGENT} Art-Online [OR]
RewriteCond %{HTTP_USER_AGENT} CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} Crescent\ Internet\ ToolPack [OR]
RewriteCond %{HTTP_USER_AGENT} DirectUpdate [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Accelerator [OR]
RewriteCond %{HTTP_USER_AGENT} eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} echo\ extense [OR]
RewriteCond %{HTTP_USER_AGENT} EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [OR]
RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} frontpage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} HTTP\ agent [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPConnect [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} IPiumBot\ laurion(dot)com [OR]
RewriteCond %{HTTP_USER_AGENT} Kapere [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR]
RewriteCond %{HTTP_USER_AGENT} minibot\(NaverRobot\) [OR]
RewriteCond %{HTTP_USER_AGENT} NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} QuepasaCreep [OR]
RewriteCond %{HTTP_USER_AGENT} SiteMapper [OR]
RewriteCond %{HTTP_USER_AGENT} Star\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} TuringOS [OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} vobsub [NC,OR]
RewriteCond %{HTTP_USER_AGENT} webbandit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} WebDAV [OR]
RewriteCond %{HTTP_USER_AGENT} WebEmailExtractor [OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} WEBsaver [OR]
RewriteCond %{HTTP_USER_AGENT} WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wysigot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus [OR]
RewriteCond %{HTTP_REFERER} ^XXX

RewriteCond %{HTTP_USER_AGENT} ADSARobot [OR]
RewriteCond %{HTTP_USER_AGENT} ah-ha [NC,OR]
RewriteCond %{HTTP_USER_AGENT} aktuelles [NC,OR]
RewriteCond %{HTTP_USER_AGENT} amzn_assoc [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Anarchie [OR]
RewriteCond %{HTTP_USER_AGENT} ASPSeek [OR]
RewriteCond %{HTTP_USER_AGENT} ASSORT [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ATHENS [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Atomz [OR]
RewriteCond %{HTTP_USER_AGENT} attach [NC,OR]
RewriteCond %{HTTP_USER_AGENT} attache [NC,OR]
RewriteCond %{HTTP_USER_AGENT} autoemailspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} BackWeb [OR]
RewriteCond %{HTTP_USER_AGENT} Bandit [OR]
RewriteCond %{HTTP_USER_AGENT} BatchFTP [OR]
RewriteCond %{HTTP_USER_AGENT} bdfetch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} big.brother [NC,OR]
RewriteCond %{HTTP_USER_AGENT} BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} bmclient [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Boston\ Project [OR]
RewriteCond %{HTTP_USER_AGENT} BravoBrian\ SpiderEngine\ MarcoPolo [OR]
RewriteCond %{HTTP_USER_AGENT} Buddy [OR]
RewriteCond %{HTTP_USER_AGENT} Bullseye [NC,OR]
RewriteCond %{HTTP_USER_AGENT} bumblebee [NC,OR]
RewriteCond %{HTTP_USER_AGENT} capture [OR]
RewriteCond %{HTTP_USER_AGENT} ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} CICC [OR]
RewriteCond %{HTTP_USER_AGENT} clipping [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Crescent [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Crescent\ Internet\ ToolPak [OR]
RewriteCond %{HTTP_USER_AGENT} Custo [OR]
RewriteCond %{HTTP_USER_AGENT} cyberalert [OR]
RewriteCond %{HTTP_USER_AGENT} Deweb [NC,OR]
RewriteCond %{HTTP_USER_AGENT} diagem [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Digger [OR]
RewriteCond %{HTTP_USER_AGENT} Digimarc [OR]
RewriteCond %{HTTP_USER_AGENT} DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} disco [NC,OR]
RewriteCond %{HTTP_USER_AGENT} DISCoFinder [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Wonder [OR]
RewriteCond %{HTTP_USER_AGENT} Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} Drip [OR]
RewriteCond %{HTTP_USER_AGENT} DSurf15a [OR]
RewriteCond %{HTTP_USER_AGENT} DTS.Agent [NC,OR]
RewriteCond %{HTTP_USER_AGENT} EasyDL [OR]
RewriteCond %{HTTP_USER_AGENT} ecollector [NC,OR]
RewriteCond %{HTTP_USER_AGENT} efp@gmx\.net [OR]
RewriteCond %{HTTP_USER_AGENT} Email\ Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} fastlwspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FavOrg [OR]
RewriteCond %{HTTP_USER_AGENT} Favorites\ Sweeper [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Fetch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FEZhead [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FileHound [OR]
RewriteCond %{HTTP_USER_AGENT} FlashGet\ WebWasher [OR]
RewriteCond %{HTTP_USER_AGENT} FlickBot [OR]
RewriteCond %{HTTP_USER_AGENT} fluffy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} GalaxyBot [OR]
RewriteCond %{HTTP_USER_AGENT} Generic [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Getleft [NC,OR]
RewriteCond %{HTTP_USER_AGENT} GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} GetSmart [OR]
RewriteCond %{HTTP_USER_AGENT} GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} GetWebPage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} gigabaz [OR]
RewriteCond %{HTTP_USER_AGENT} Girafabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} go-ahead-got-it [NC,OR]
RewriteCond %{HTTP_USER_AGENT} GornKer [OR]
RewriteCond %{HTTP_USER_AGENT} Grabber [NC,OR]
RewriteCond %{HTTP_USER_AGENT} GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} Green\ Research [OR]
RewriteCond %{HTTP_USER_AGENT} Harvest [NC,OR]
RewriteCond %{HTTP_USER_AGENT} hhjhj@yahoo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} hloader [OR]
RewriteCond %{HTTP_USER_AGENT} HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HomePageSearch [OR]
RewriteCond %{HTTP_USER_AGENT} httpdown [OR]
RewriteCond %{HTTP_USER_AGENT} http\ generic [OR]
RewriteCond %{HTTP_USER_AGENT} IBM_Planetwide [OR]
RewriteCond %{HTTP_USER_AGENT} Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} imagefetch [OR]
RewriteCond %{HTTP_USER_AGENT} IncyWincy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} informant [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Ingelin [NC,OR]
RewriteCond %{HTTP_USER_AGENT} InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} InternetLinkAgent [OR]
RewriteCond %{HTTP_USER_AGENT} InternetSeer\.com [OR]
RewriteCond %{HTTP_USER_AGENT} Iria [OR]
RewriteCond %{HTTP_USER_AGENT} Irvine [OR]
RewriteCond %{HTTP_USER_AGENT} JBH*Agent [OR]
RewriteCond %{HTTP_USER_AGENT} JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} JOC [OR]
RewriteCond %{HTTP_USER_AGENT} JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} JustView [OR]
RewriteCond %{HTTP_USER_AGENT} KWebGet [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Lachesis [OR]
RewriteCond %{HTTP_USER_AGENT} larbin [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} LexiBot [OR]
RewriteCond %{HTTP_USER_AGENT} lftp [OR]
RewriteCond %{HTTP_USER_AGENT} libwww [OR]
RewriteCond %{HTTP_USER_AGENT} likse [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Link*Sleuth [OR]
RewriteCond %{HTTP_USER_AGENT} LINKS\ ARoMATIZED [OR]
RewriteCond %{HTTP_USER_AGENT} LinkWalker [OR]
RewriteCond %{HTTP_USER_AGENT} LWP [NC,OR]
RewriteCond %{HTTP_USER_AGENT} lwp-trivial [OR]
RewriteCond %{HTTP_USER_AGENT} Magnet [OR]
RewriteCond %{HTTP_USER_AGENT} Mac\ Finder [OR]
RewriteCond %{HTTP_USER_AGENT} Mag-Net [OR]
RewriteCond %{HTTP_USER_AGENT} Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} MCspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} Mirror [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Missigua\ Locator [OR]
RewriteCond %{HTTP_USER_AGENT} Mister\ PiX [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MMMtoCrawl\/UrlDispatcherLLL [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla$ [OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy [OR]
RewriteCond %{HTTP_USER_AGENT} multithreaddb [NC,OR]
RewriteCond %{HTTP_USER_AGENT} nationaldirectory [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} NetCarta [NC,OR]
RewriteCond %{HTTP_USER_AGENT} NetMechanic [OR]
RewriteCond %{HTTP_USER_AGENT} netprospector [NC,OR]
RewriteCond %{HTTP_USER_AGENT} NetResearchServer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} NetZip\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} NetZippy [OR]
RewriteCond %{HTTP_USER_AGENT} NEWT [NC,OR]
RewriteCond %{HTTP_USER_AGENT} nicerspro [NC,OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} OpaL [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Openfind [OR]
RewriteCond %{HTTP_USER_AGENT} OpenTextSiteCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} OrangeBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PackRat [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} pavuk [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PersonaPilot [OR]
RewriteCond %{HTTP_USER_AGENT} pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} PingALink [OR]
RewriteCond %{HTTP_USER_AGENT} Pockey [OR]
RewriteCond %{HTTP_USER_AGENT} Proxy [OR]
RewriteCond %{HTTP_USER_AGENT} psbot [OR]
RewriteCond %{HTTP_USER_AGENT} PSurf [NC,OR]
RewriteCond %{HTTP_USER_AGENT} puf [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Pump [OR]
RewriteCond %{HTTP_USER_AGENT} PushSite [NC,OR]
RewriteCond %{HTTP_USER_AGENT} QRVA [OR]
RewriteCond %{HTTP_USER_AGENT} RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} Reaper [OR]
RewriteCond %{HTTP_USER_AGENT} Recorder [OR]
RewriteCond %{HTTP_USER_AGENT} ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} replacer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} RepoMonkey [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Robozilla [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Rover [NC,OR]
RewriteCond %{HTTP_USER_AGENT} RPT-HTTPClient [OR]
RewriteCond %{HTTP_USER_AGENT} Rsync [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SearchExpress [OR]
RewriteCond %{HTTP_USER_AGENT} searchhippo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} searchterms\.it [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Second\ Street\ Research [OR]
RewriteCond %{HTTP_USER_AGENT} Seeker [OR]
RewriteCond %{HTTP_USER_AGENT} Shai [NC,OR]
RewriteCond %{HTTP_USER_AGENT} sitecheck [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} SlySearch [OR]
RewriteCond %{HTTP_USER_AGENT} SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} snagger [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} Spegla [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SpiderBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SqWorm [OR]
RewriteCond %{HTTP_USER_AGENT} Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} SurfWalker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Szukacz [OR]
RewriteCond %{HTTP_USER_AGENT} tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} tarspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Templeton [NC,OR]
RewriteCond %{HTTP_USER_AGENT} TrueRobot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} TV33_Mercator [OR]
RewriteCond %{HTTP_USER_AGENT} UIowaCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} URL_Spider_Pro [OR]
RewriteCond %{HTTP_USER_AGENT} UtilMind [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Vacuum [OR]
RewriteCond %{HTTP_USER_AGENT} vagabondo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} vayala [NC,OR]
RewriteCond %{HTTP_USER_AGENT} visibilitygap [NC,OR]
RewriteCond %{HTTP_USER_AGENT} VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} vspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} w3mir [NC,OR]
RewriteCond %{HTTP_USER_AGENT} web\.by\.mail [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Data\ Extractor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} Webclipping [OR]
RewriteCond %{HTTP_USER_AGENT} webcollector [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} webcraft@bea [NC,OR]
RewriteCond %{HTTP_USER_AGENT} webdevil [NC,OR]
RewriteCond %{HTTP_USER_AGENT} webdownloader [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Webdup [OR]
RewriteCond %{HTTP_USER_AGENT} WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} WebHook [OR]
RewriteCond %{HTTP_USER_AGENT} Webinator [OR]
RewriteCond %{HTTP_USER_AGENT} WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} WEBMASTERS [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebMiner [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebMirror [OR]
RewriteCond %{HTTP_USER_AGENT} webmole [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} WebSnake [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Webster [OR]
RewriteCond %{HTTP_USER_AGENT} WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} websucker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} webvac [NC,OR]
RewriteCond %{HTTP_USER_AGENT} webwalk [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} webweasel [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [OR]
RewriteCond %{HTTP_USER_AGENT} whizbang [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WhosTalking [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Widow [OR]
RewriteCond %{HTTP_USER_AGENT} WISEbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WUMPUS [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wweb [OR]
RewriteCond %{HTTP_USER_AGENT} WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} XGET [NC,OR]
RewriteCond %{HTTP_USER_AGENT} x-Tractor [OR]
RewriteCond %{HTTP_USER_AGENT} Yandex [OR]
#
# Un hôte qui tente de se cacher dans une reverse DNS lookup
RewriteCond %{REMOTE_HOST} ^private$ [NC,OR]
#
# Sites de surveillance du Web (peut nécessiter ipchains)
RewriteCond %{HTTP_USER_AGENT} traffixer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} netfactual [NC,OR]
RewriteCond %{HTTP_USER_AGENT} netcraft [NC,OR]
#
# Un faux referrer souvent utilisé
RewriteCond %{HTTP_USER_AGENT} ^[^?]*iaea\.org [NC,OR]
#
# Le referrer "addresses.com" est utilisé par un email address extractor
RewriteCond %{HTTP_USER_AGENT} ^[^?]*addresses\.com [NC,OR]
#
# Bloque les navigateurs se dissimulants avec des lettres et chiffres aléatoires
RewriteCond %{HTTP_USER_AGENT} [0-9A-Za-z]{15,} [OR]
RewriteCond %{HTTP_USER_AGENT} ^[0-9A-Za-z]+$ [OR]
#
# Un faux referrer utilisé en conjonction avec un formmail exploits
RewriteCond %{HTTP_USER_AGENT} ^[^?]*\.ideography\.co\.uk [NC]
RewriteRule .*$ http://www.autre_site.com [R,L]
# Une redirection interne compte pour 2 hits
# Une redirection externe compte pour 1 hit
 

Digit

WRInaute occasionnel
Petites remarques :
- un .htaccess aussi fourni que celui-ci risque de solliciter plus de CPU par Apache pour traiter les requêtes http (mais moins que si aspirateur prend tout le site ;) )
- Tout ne doit pas être dans le .htaccess, certains robots/aspirateurs respectent le robots.txt (voir par exemple celui de mon site)
- 30 requetes par minute peut être réduit, je fonctionne avec 24 requetes par minute, c'est la meilleure valeur que j'ai pu constater sur mon site en réglant ce paramètre
- Ne pas bloquer définitivement au-dela de ce seuil car j'ai déjà rencontré Yahoo , Google qui l'ont dépassé dans un excès de fébrilité (google : full crawl rapide, yahoo : un bot en test un peu fou...). Pour ma part je bloque l'IP qui dépasse le seuil pendant un certain temps (403 ou page blanche retournée) ce qui évite de bloquer définitivement un gentil robot (nono, l'ami d'Ulysse? ;) )
- J'utilise une méthode complémentaire : un lien de blocage en javascript. Les robots des moteurs sont évolués et savent ne pas suivre ces liens, il en va de même pour les navigateurs de monsieur tout le monde. Un aspirateur est un peu plus bete et se prend le piège. Il s'agit de placer un truc du genre var mavar="<img src=blocagedefinitif.php>";
- Enfin, la dernière méthode est réservée pour les guestbook : je bloque les visiteurs sans referrer, n'acceptant pas gzip et étant sous Windows 98 avec IE6. J'ai constaté que les robots d'aspiration des adresses mails avaient essentiellement cette configuration. Après vérification, je n'ai pas constaté le moindre utilisateur bloqué, donc pas d'effet de bord.

C'est l'association de toutes ces méthodes qui permet le blocage des aspirateurs. Début janvier j'avais près de 2 aspirateurs par jour, actuellement plus aucun et un gain en bande passante énorme.
 

bjp

WRInaute occasionnel
Perso j'utilise ceci, mais je trouve cela un peu lourd.
En tout cas je n'ai aucun bug avec.

Code:
SetEnvIfNoCase User-Agent "^yandex" bad_bot
SetEnvIfNoCase User-Agent "^Alexibot" bad_bot
SetEnvIfNoCase User-Agent "^Art-Online.com 0.9" bad_bot
SetEnvIfNoCase User-Agent "^asterias" bad_bot 
SetEnvIfNoCase User-Agent "^BackDoorBot" bad_bot 
SetEnvIfNoCase User-Agent "^Black.Hole" bad_bot 
SetEnvIfNoCase User-Agent "^BlackWidow" bad_bot 
SetEnvIfNoCase User-Agent "^BlowFish" bad_bot 
SetEnvIfNoCase User-Agent "^Bot\ mailto:craftbot@yahoo.com" bad_bot 
SetEnvIfNoCase User-Agent "^BotALot" bad_bot 
SetEnvIfNoCase User-Agent "^BuiltBotTough" bad_bot 
SetEnvIfNoCase User-Agent "^Bullseye" bad_bot 
SetEnvIfNoCase User-Agent "^BunnySlippers" bad_bot 
SetEnvIfNoCase User-Agent "^Cegbfeieh" bad_bot 
SetEnvIfNoCase User-Agent "^CheeseBot" bad_bot 
SetEnvIfNoCase User-Agent "^CherryPicker" bad_bot 
SetEnvIfNoCase User-Agent "^ChinaClaw" bad_bot 
SetEnvIfNoCase User-Agent "^CopyRightCheck" bad_bot 
SetEnvIfNoCase User-Agent "^cosmos" bad_bot 
SetEnvIfNoCase User-Agent "^Crescent" bad_bot 
SetEnvIfNoCase User-Agent "^Custo" bad_bot 
SetEnvIfNoCase User-Agent "^DISCo" bad_bot 
SetEnvIfNoCase User-Agent "^DittoSpyder" bad_bot 
SetEnvIfNoCase User-Agent "^Download\ Demon" bad_bot 
SetEnvIfNoCase User-Agent "^eCatch" bad_bot 
SetEnvIfNoCase User-Agent "^EirGrabber" bad_bot 
SetEnvIfNoCase User-Agent "^EmailCollector" bad_bot 
SetEnvIfNoCase User-Agent "^EmailSiphon" bad_bot 
SetEnvIfNoCase User-Agent "^EmailWolf" bad_bot 
SetEnvIfNoCase User-Agent "^EroCrawler" bad_bot 
SetEnvIfNoCase User-Agent "^Express\ WebPictures" bad_bot 
SetEnvIfNoCase User-Agent "^ExtractorPro" bad_bot 
SetEnvIfNoCase User-Agent "^EyeNetIE" bad_bot 
SetEnvIfNoCase User-Agent "^FlashGet" bad_bot 
SetEnvIfNoCase User-Agent "^Foobot" bad_bot 
SetEnvIfNoCase User-Agent "^FrontPage" bad_bot 
SetEnvIfNoCase User-Agent "^GetRight" bad_bot 
SetEnvIfNoCase User-Agent "^GetWeb!" bad_bot 
SetEnvIfNoCase User-Agent "^Go!Zilla" bad_bot 
SetEnvIfNoCase User-Agent "^Go-Ahead-Got-It" bad_bot 
SetEnvIfNoCase User-Agent "^GrabNet" bad_bot 
SetEnvIfNoCase User-Agent "^Grafula" bad_bot 
SetEnvIfNoCase User-Agent "^Harvest" bad_bot 
SetEnvIfNoCase User-Agent "^hloader" bad_bot 
SetEnvIfNoCase User-Agent "^HMView" bad_bot 
SetEnvIfNoCase User-Agent "^httplib" bad_bot 
SetEnvIfNoCase User-Agent "^HTTrack" bad_bot 
SetEnvIfNoCase User-Agent "^HTTrack 3.0x" bad_bot 
SetEnvIfNoCase User-Agent "^humanlinks" bad_bot 
SetEnvIfNoCase User-Agent "^ia_archiver" bad_bot 
SetEnvIfNoCase User-Agent "^Image\ Stripper" bad_bot 
SetEnvIfNoCase User-Agent "^Image\ Sucker" bad_bot 
SetEnvIfNoCase User-Agent "^Indy\ Library" bad_bot 
SetEnvIfNoCase User-Agent "^InfoNaviRobot" bad_bot 
SetEnvIfNoCase User-Agent "^InterGET" bad_bot 
SetEnvIfNoCase User-Agent "^Internet\ Ninja" bad_bot 
SetEnvIfNoCase User-Agent "^JennyBot" bad_bot 
SetEnvIfNoCase User-Agent "^JetCar" bad_bot 
SetEnvIfNoCase User-Agent "^JOC\ Web\ Spider" bad_bot 
SetEnvIfNoCase User-Agent "^Kenjin.Spider" bad_bot 
SetEnvIfNoCase User-Agent "^Keyword.Density" bad_bot 
SetEnvIfNoCase User-Agent "^larbin" bad_bot 
SetEnvIfNoCase User-Agent "^LeechFTP" bad_bot 
SetEnvIfNoCase User-Agent "^LexiBot" bad_bot 
SetEnvIfNoCase User-Agent "^libWeb/clsHTTP" bad_bot 
SetEnvIfNoCase User-Agent "^LinkextractorPro" bad_bot 
SetEnvIfNoCase User-Agent "^LinkScan/8.1a.Unix" bad_bot 
SetEnvIfNoCase User-Agent "^LinkWalker" bad_bot 
SetEnvIfNoCase User-Agent "^lwp-trivial" bad_bot 
SetEnvIfNoCase User-Agent "^Mass\ Downloader" bad_bot 
SetEnvIfNoCase User-Agent "^Mata.Hari" bad_bot 
SetEnvIfNoCase User-Agent "^Microsoft.URL" bad_bot 
SetEnvIfNoCase User-Agent "^MIDown\ tool" bad_bot 
SetEnvIfNoCase User-Agent "^MIIxpc" bad_bot 
SetEnvIfNoCase User-Agent "^Mister\ PiX" bad_bot 
SetEnvIfNoCase User-Agent "^moget" bad_bot 
SetEnvIfNoCase User-Agent "^Mozilla/3.Mozilla/2.01" bad_bot 
SetEnvIfNoCase User-Agent "^Mozilla.*NEWT"  bad_bot 
SetEnvIfNoCase User-Agent "^Navroad" bad_bot 
SetEnvIfNoCase User-Agent "^NaverRobot" bad_bot 
SetEnvIfNoCase User-Agent "^NearSite" bad_bot 
SetEnvIfNoCase User-Agent "^NetAnts" bad_bot 
SetEnvIfNoCase User-Agent "^NetMechanic" bad_bot  
SetEnvIfNoCase User-Agent "^NetSpider" bad_bot 
SetEnvIfNoCase User-Agent "^Net\ Vampire" bad_bot 
SetEnvIfNoCase User-Agent "^NetZIP" bad_bot 
SetEnvIfNoCase User-Agent "^NICErsPRO" bad_bot 
SetEnvIfNoCase User-Agent "^NPbot" bad_bot 
SetEnvIfNoCase User-Agent "^Octopus" bad_bot 
SetEnvIfNoCase User-Agent "^Offline\ Explorer" bad_bot 
SetEnvIfNoCase User-Agent "^Offline\ Navigator" bad_bot 
SetEnvIfNoCase User-Agent "^Openfind" bad_bot 
SetEnvIfNoCase User-Agent "^PageGrabber" bad_bot 
SetEnvIfNoCase User-Agent "^Papa\ Foto" bad_bot 
SetEnvIfNoCase User-Agent "^pavuk" bad_bot 
SetEnvIfNoCase User-Agent "^pcBrowser" bad_bot 
SetEnvIfNoCase User-Agent "^ProPowerBot/2.14" bad_bot 
SetEnvIfNoCase User-Agent "^ProWebWalker" bad_bot 
SetEnvIfNoCase User-Agent "^psbot/0.1" bad_bot 
SetEnvIfNoCase User-Agent "^QueryN.Metasearch" bad_bot 
SetEnvIfNoCase User-Agent "^QueryN.Metasearch" bad_bot 
SetEnvIfNoCase User-Agent "^QuepasaCreep v0.9.13" bad_bot 
SetEnvIfNoCase User-Agent "^QuepasaCreep v0.9.14" bad_bot 
SetEnvIfNoCase User-Agent "^ReGet" bad_bot 
SetEnvIfNoCase User-Agent "^RepoMonkey" bad_bot 
SetEnvIfNoCase User-Agent "^RMA" bad_bot 
SetEnvIfNoCase User-Agent "^SiteSnagger" bad_bot
SetEnvIfNoCase User-Agent "^SiteMapper 1.04" bad_bot 
SetEnvIfNoCase User-Agent "^SlySearch" bad_bot 
SetEnvIfNoCase User-Agent "^SmartDownload" bad_bot 
SetEnvIfNoCase User-Agent "^SpankBot" bad_bot 
SetEnvIfNoCase User-Agent "^spanner"  bad_bot 
SetEnvIfNoCase User-Agent "^SuperBot" bad_bot 
SetEnvIfNoCase User-Agent "^SuperHTTP" bad_bot 
SetEnvIfNoCase User-Agent "^Surfbot" bad_bot 
SetEnvIfNoCase User-Agent "^suzuran" bad_bot 
SetEnvIfNoCase User-Agent "^Szukacz/1.4"  bad_bot 
SetEnvIfNoCase User-Agent "^tAkeOut" bad_bot 
SetEnvIfNoCase User-Agent "^Teleport\ Pro" bad_bot 
SetEnvIfNoCase User-Agent "^Telesoft" bad_bot 
SetEnvIfNoCase User-Agent "^TurnitinBot/1.5" bad_bot 
SetEnvIfNoCase User-Agent "^The.Intraformant" bad_bot 
SetEnvIfNoCase User-Agent "^TheNomad" bad_bot 
SetEnvIfNoCase User-Agent "^TightTwatBot" bad_bot 
SetEnvIfNoCase User-Agent "^Titan" bad_bot 
SetEnvIfNoCase User-Agent "^toCrawl/UrlDispatcher" bad_bot 
SetEnvIfNoCase User-Agent "^True_Robot" bad_bot  
SetEnvIfNoCase User-Agent "^turingos" bad_bot 
SetEnvIfNoCase User-Agent "^URLy.Warning" bad_bot 
SetEnvIfNoCase User-Agent "^VCI" bad_bot 
SetEnvIfNoCase User-Agent "^verticrawl" bad_bot 
SetEnvIfNoCase User-Agent "^VoidEYE" bad_bot 
SetEnvIfNoCase User-Agent "^Web\ Image\ Collector" bad_bot 
SetEnvIfNoCase User-Agent "^Web\ Sucker" bad_bot 
SetEnvIfNoCase User-Agent "^WebAuto" bad_bot 
SetEnvIfNoCase User-Agent "^WebBandit" bad_bot 
SetEnvIfNoCase User-Agent "^WebCopier" bad_bot 
SetEnvIfNoCase User-Agent "^WebEMailExtrac.*" bad_bot 
SetEnvIfNoCase User-Agent "^WebEnhancer" bad_bot 
SetEnvIfNoCase User-Agent "^WebFetch" bad_bot 
SetEnvIfNoCase User-Agent "^WebGo\ IS" bad_bot 
SetEnvIfNoCase User-Agent "^Web.Image.Collector" bad_bot 
SetEnvIfNoCase User-Agent "^WebLeacher" bad_bot 
SetEnvIfNoCase User-Agent "^WebmasterWorldForumBot" bad_bot 
SetEnvIfNoCase User-Agent "^WebReaper" bad_bot 
SetEnvIfNoCase User-Agent "^WebSauger" bad_bot 
SetEnvIfNoCase User-Agent "^Website\ eXtractor" bad_bot 
SetEnvIfNoCase User-Agent "^Website\ Quester" bad_bot 
SetEnvIfNoCase User-Agent "^Webster.Pro" bad_bot 
SetEnvIfNoCase User-Agent "^WebStripper" bad_bot 
SetEnvIfNoCase User-Agent "^WebWhacker" bad_bot 
SetEnvIfNoCase User-Agent "^WebZIP" bad_bot 
SetEnvIfNoCase User-Agent "^Wget" bad_bot 
SetEnvIfNoCase User-Agent "^Widow" bad_bot 
SetEnvIfNoCase User-Agent "^[Ww]eb[Bb]andit" bad_bot 
SetEnvIfNoCase User-Agent "^WWWOFFLE" bad_bot 
SetEnvIfNoCase User-Agent "^WWW-Collector-E" bad_bot 
SetEnvIfNoCase User-Agent "^Xaldon\ WebSpider" bad_bot 
SetEnvIfNoCase User-Agent "^Xenu's" bad_bot 
SetEnvIfNoCase User-Agent "^Zeus" bad_bot 
SetEnvIfNoCase User-Agent "^exabot.com" bad_bot 
<Limit GET POST PUT HEAD> 
order allow,deny 
allow from all 
deny from env=bad_bot 
</Limit> 
##Off to the Mouse they go##
 

Ohax

WRInaute accro
@Digit -> je me suis inspiré de ton robots.txt pour completer le mien et pouvoir retirer quelques lignes de mon htaccess mais je ne peu plus me permettre de laisser passer les robots

un forum de 30 000 messages qui ce fait crawler ça fait trés trés mal ;-)
 

bjp

WRInaute occasionnel
Bof : du 01/03 au 21/03 :
Google AdSense 99665 hits
Googlebot 32800 hits
Nouveaux messages même période : 18600

Faut savoir rester modeste et ne pas toujours aligner ses chiffres. Seul au monde !

ps : pas mal d'autres forums font bien mieux.
 

¥€$

WRInaute impliqué
Que pensez vous d'un script de bannissement inconditionnel dans un dossier interdit par le robots.txt ?
 

Ohax

WRInaute accro
# Bloque les navigateurs se dissimulants avec des lettres et chiffres aléatoires
RewriteCond %{HTTP_USER_AGENT} [0-9A-Za-z]{15,} [OR]
RewriteCond %{HTTP_USER_AGENT} ^[0-9A-Za-z]+$ [OR]




de plus si l'aspirateur ou le bot arrive à aller au dela de la protection robots.txt et .htaccess il se retrouvera bloqué avec le script de bannissement de l'ip
 

u8086

WRInaute passionné
Ouep ! Je crois plus à l'efficacité de ces scripts qui te permettent une réaction au cas par cas assez rapide.
 

Genzo

WRInaute impliqué
J'utilise moi même un script (seulement php/mysql). Quand un IP a affiché 25 pages en une minutes, l'ip est blacklistée. Ca marche très bien, et j'ai eu un aspirateur de bloqué comme ça.
Les moteurs ne sont pas bloqués car ils affichent pas plus de 25 pages à la minute.

;)
 

Ohax

WRInaute accro
Genzo a dit:
J'utilise moi même un script (seulement php/mysql). Quand un IP a affiché 25 pages en une minutes, l'ip est blacklistée. Ca marche très bien, et j'ai eu un aspirateur de bloqué comme ça.
Les moteurs ne sont pas bloqués car ils affichent pas plus de 25 pages à la minute.

;)


avec cette configuration j'avait bloqué les bots google c'est pour ça que je suis monté à 30
 

u8086

WRInaute passionné
Tu peux pas utiliser ce script en fonction du User-Agent ? Et ainsi ne pas l'appliquer à GG...
 

Genzo

WRInaute impliqué
C'est vrai aussi qu'avec un site assez volumineux en pages, ca devient coton :lol:

MagicYoyo a dit:
Tu peux pas utiliser ce script en fonction du User-Agent ? Et ainsi ne pas l'appliquer à GG...

Normalement c'est faisable, mais encore faut il connaitre les user-agent de tous les moteurs.
 

Ohax

WRInaute accro
un htaccess va bloquer le gros mais pas les utilisateurs avertis...

seul le script php est efficace mais le htaccess fait le ménage
 

Ohax

WRInaute accro
trés efficace

ça banni les ip des gens qui affichent mes pages en cache google j'ai l'impression


bien sur je debanni en un click mais bon


bizar

en tout cas resultat positif
 

Digit

WRInaute occasionnel
Pas suffisant, un aspirateur peut te permettre de mettre le user_agent de monsieur-tout-le-monde et ne pas prendre en compte le robots.txt, donc ce n'est absolument pas efficace. Je pense qu'il faut compléter avec les techniques mentionnées en première page de ce thread.
 

Ohax

WRInaute accro
Digit a dit:
Pas suffisant, un aspirateur peut te permettre de mettre le user_agent de monsieur-tout-le-monde et ne pas prendre en compte le robots.txt, donc ce n'est absolument pas efficace. Je pense qu'il faut compléter avec les techniques mentionnées en première page de ce thread.

le htaccess filtre le gros

après ils sont bloqués avec le script qui detecte automatiquement le nombre de page / minute

infaillible
 

nautiljon

WRInaute discret
Comme le dis milkiway, aurait-il moyen d'avoir les scripts de blocage définitifs php et .htaccess ?
Pour le bien de tous.
Merci.
 

Daktari

WRInaute impliqué
Après plusieurs essais, je viens de réussir à mettre en place à la fois la méthode basée sur le .htaccess et celle basée sur le nombre de pages affichées.

A partir de là j'ai deux questions :D :

- la méthode par .htaccess est-elle vraiment nécessaire ?
- avec 25 pages, j'ai bloqué google, je suis donc monté jusque 40 (n'est-ce pas trop élevé pour bloquer les aspirateurs ?).

Merci.
 

ti_ouf

WRInaute discret
Genzo a dit:
J'utilise moi même un script (seulement php/mysql). Quand un IP a affiché 25 pages en une minutes, l'ip est blacklistée. Ca marche très bien, et j'ai eu un aspirateur de bloqué comme ça.
Les moteurs ne sont pas bloqués car ils affichent pas plus de 25 pages à la minute.

;)
Salut
je suis interéssé par ce que tu me dis là, puisque j'ai pas mal bosser pour établir un script anti-aspiration!
Il marche moyen, j'ai fais de 2 façon differentes mais ce qui me manque, c'est de trouver la vitesse des requetes,et etablir donc une limite!
comment fais tu s'il te plait?

je suis le topic

De plus l'user agent est modifiable...
je sais pas si c'est bien bon de se baser la dessus
 

Maleville

Nouveau WRInaute
Bonjour.

Pour bien comprendre ce que sont les crawlers indésirables il faut savoir que :
- Certains respectent le protocole robots.txt
- D’autres vont de liens en liens en respectant un nombre de hits par minutes.
- D’autres encore ne respectent ni l’un ni l’autre.

Pour les exclure :
- Ceux qui respectent les protocoles : les repérer par le USER_AGENT
- Ceux qui ne respectent pas le protocole robots.txt sont TOUS à exclure par l’intermédiaire de leur IP (et peu importe si dans la minute qui suit, ils en changent).

Dans les pages où je décris ces processus il est fait la distinction entre les « sournois » et les « sauvages ». On ne peut donc piéger les deux qu’en employant conjointement deux méthodes :
- Exclusion par le USER_AGENT.
- Exclusion de l’IP par l’intermédiaire d’un lien non cliquable pour le simple visiteur et suffisamment signalé comme interdit aux spiders, crawlers et autres aspirateurs de sites. A la première tentative du suivit de ce lien (qui doit être présent sur chaque page) et sans attendre l’aspiration de 25 ou 40 pages par minutes, le robot est piègé et exclu par .htaccess.

Dans le cadre de ce post il est malaisé de pouvoir décrire ce qui m’a conduit à privilégier cette méthode qui est, me semble t’il, et pour avoir essayé les autres, la plus efficace.
A titre d’exemple voici un passage d’une des explications que je donne :
« ...... on peut citer d'autres spiders qui visitent tout à fait normalement votre site mais ne vous apporteront jamais rien en terme de visiteur. On peut citer Almaden, le spider d'IBM, qui parcourt le web, visite toutes les pages des sites, récolte des informations dont personne, à ma connaissance, ne sait de quel genre et pour quel usage. C'est le type de spider à exclure et dont le meilleur moyen est de le faire par .htaccess ; le protocole robots.txt n'étant pas toujours respecté par ce genre de spiders. Il y en a aussi qui surfent de même afin de se constituer une base de données qui servira à déterminer pour leurs clients s'il y a infraction aux droits de copyright. D'autres, comme Netcraft ou Netfactual, se servent de votre site, d'une page, d'une image, pour surveiller l'état du réseau mondial et revendre cette information. Ils ne martèlent pas votre site par un nombre de hits élevé ou ne vous volent pas de la bande passante mais le procédé peut paraître cavalier pour ne pas dire autre chose et mieux vaut les inviter à exercer leurs tests ailleurs.
Avec ces moteurs de recherche, vous ne figurerez jamais dans un annuaire accessible au public et générateur de visites. Ils sont donc à exclure. »

Mais si vous vous rendez sur le lien que Digit donne dans son message du 28 mars 2005, et à condition de bien lire TOUTES les pages vous n’aurez plus jamais aucun problème de hits ou de bande passante.
.
Ce script fonctionne sans base MySQL mais peut tout aussi bien être adapté. Il est livre en deux configurations Apache, en version Perl et en version PHP.

Bonne lecture
 

cedfr

WRInaute passionné
J'utilise un script anti aspirateur qui contrôle les IPs chaque minute et au bout d'une certaine limite, l'IP est bloquée et se retrouve sur une page de bannissement.
 

Ohax

WRInaute accro
bordel j'ai eu 4 aspirateurs de type HTTrack cette nuit :evil: :evil: :evil: :evil: :evil:

heureusement que le script les as bloqués :D
 

cedfr

WRInaute passionné
Ohax a dit:
bordel j'ai eu 4 aspirateurs de type HTTrack cette nuit :evil: :evil: :evil: :evil: :evil:

heureusement que le script les as bloqués :D

:lol:
Ca m'énerve vraiment ce genre de personne qui pense pouvoir aspirer les sites Internet de cette manière et qui surchagent les serveurs :twisted:
Pour ma part, mieux vaut pas qu'un aspirateur vienne, car non seulement il est banni, mais le PC de l'utilisateur se retrouve spammer par des virus, spywares et il devra tout formater. je sais que c'est radicale comme solution, mais il n'y a que ça qui peut disuader ses "méchants" :lol:
 

ti_ouf

WRInaute discret
ça c'est pas super malin...
Il y a deux types de personnes qui utilisent les aspirateurs:
  • ceux qui veulent piquer le travail des autres
  • ceux qui ont une petite connexion et qui visualisent ensuite le site hors ligne.

Alors agir de la sorte n'est pas super bien, d'autant plus que c'est interdit.
 

DISCRET

WRInaute discret
Ohax tu parlais de HTTrack, mais je crois qu'il sait charger que ce qui a changé depuis la fois précédente. C'est vrai que si le gars passe tout les 6 mois ça risque d'être rude.
Pour en revenir aux connection en RTC, il faut pas oublier non plus que c'est très cher et limité dans le temps, en France on vient seulement de passer le cap des 50% des abonnements avec une connection mini l'ADSL, ce qui veut dire qu'il reste presque 50% en RTC.
 

aladdin

WRInaute passionné
j'utilise la methode .htaccess plus frequence d'acces aux pages avec une petite variante que j'expliquerai ;)

mais avant j'aimerai savoir s'il n'ya pas un moyen fiable d'idientifier un visiteur car le USER_AGENT est maintennat modifiable par la plupart des aspirateurs


sinon pour la petite variante, au lieu de black lister l'IP, moi je prefère faire jouer un peut avec le voleur
en fait
j'ai un compte perso chez un FAI qui contient un site à la con et une page php
la page contient des url avec des variables generrés aléatoirement et qui redirige vers la page elle meme qui contiendra d'autres url ...etc

des que je detecte une IP suspecte je l'envoi ...... balader :D
 

Ohax

WRInaute accro
j'utilise un script qui bloque les utilisateurs trop agressifs quelque soit l'useragent

quand le script ban un visiteur il m'envoy un mail avec de trés nombreuses infos ainsi que l'ip

je conserve tous les mails et verifie souvent les ips, la page qui à provoqué le ban etc...

surtout l'user agent qui peu être facilemment modifiable...

brefff
c'est le seul moyen efficace
 

untictac

WRInaute discret
Salut à tous ;-)

J’aurais quelques questions concernant les aspirateurs de siteweb :roll:

1) Est-ce vraiment fréquent qu’un aspirateur de siteweb passe sur un site ? et ya t’il des « types » de sites plus sujet a ce problème ? si oui lesquels ?

2) Niveau bande passante c’est vraiment la ruine ? ça se compte en Go ? un exemple ? :?

3) Si j’ai bien compris, d’âpres « Maleville » , le top est d’utiliser les techniques décrites dans les 2 liens de « digit » ,

Mais vous êtes sûr qu’il n’y a aucun problème ensuite pour être indexé par Google, msn etc ?

Et ya t’il un inconvénient a utiliser ces techniques ?

4) Dernière question par curiosité, tous les sites qui on un asser fort traffic , qui sont asser « populaire » utilise un système anti-aspirateur ou pas spécialement ?

Merci d’avance :wink:
Tictac
 

Ohax

WRInaute accro
Je vai te répondre pour mon propre cas mais les reponses peuvent varier en fonction des sites... pour un site de 3 pages c'est pas un problème ^^

untictac a dit:
1) Est-ce vraiment fréquent qu’un aspirateur de siteweb passe sur un site ? et ya t’il des « types » de sites plus sujet a ce problème ? si oui lesquels ?

chez moi oui, il y en à minimum 2 / jour :'(

untictac a dit:
2) Niveau bande passante c’est vraiment la ruine ? ça se compte en Go ? un exemple ? :?

imagine un forum de quasiment 60 000 msg qui ce fait aspirer, plus le portail de news, plus le forum d'airsoft que j'heberge pour une assos

je te dit pas la catastrophe... pas seulemment au niveau de la bande passante mais aussi pour ce qui est des ressources...

pour vouloir aspirer un forum il faut vraiment être mal intentionné...

untictac a dit:
3) Si j’ai bien compris, d’âpres « Maleville » , le top est d’utiliser les techniques décrites dans les 2 liens de « digit » ,

la protection par htaccess bloquera pas plus de 50 % des aspirateurs

pour moi la seule solution est le script que j'ai proposé dans plusieurs topics ->

http://www.1001bd.com/stop_aspirateurs/



il est tout simplemment génial et ne consomme pas grand chose

untictac a dit:
Mais vous êtes sûr qu’il n’y a aucun problème ensuite pour être indexé par Google, msn etc ?

aucun ;-)

je n'ai jamais bloqué un bot de msn, google, yahoo (slup), etc.... ;-)

untictac a dit:
Et ya t’il un inconvénient a utiliser ces techniques ?

le script consomme quelques ressources (rien de trés mechant) mais au final on est forcemment gagnant (surtout si on possède un site trés volumineu)

je suis près à expliquer aux possésseurs d'un forum phpbb comment le mettre en place ;-)

untictac a dit:
4) Dernière question par curiosité, tous les sites qui on un asser fort traffic , qui sont asser « populaire » utilise un système anti-aspirateur ou pas spécialement ?

j'ai déja vu des gros sites comme tube qui bloquait mon ips 5 minutes car je faisai une manip assé spéciale...
 

nautiljon

WRInaute discret
Idem, j'utilise un script qui verifie le nombre de page vérifiés dans une minute, si ça va trop vite ça ban l'ip, y'a que ça de valable avec ceux qui cachent leur user agent, j'ai jamais bloqué de bots (google, slurp, ils passent avec plusieurs ip heureusement)
 

untictac

WRInaute discret
Merci pour toutes les réponses Ohax :wink:

Je viens de voir qu'il est en téléchargement sur "Telecharger.com"

-http://www.01net.com/telecharger/windows/Internet/gestion_site/fiches/26013.html


Reste à voir le nombre de pages minutes idéal pour bloquer les aspirateurs, mais laisser passer Google,Msn etc..

Digit arrive a ne pas bloquer Google avec 24 pages minutes , alors que Ohax tu as bloqué Google a 25 pages minutes , du coup ta mis 30 pages minutes et c’est bon

Normalement a 30 pages minutes ca roules pour Google,Msn etc sur a 100% ?

Mais comment se fait il que Xost a bloquer Google meme en mettant 100 ? :?
 

Ohax

WRInaute accro
j'avai bloqué à 25 pages / minutes lors de l'un de mes premiers sites... c'est à dire il y à 2 - 3 ans... actuellement je suis à 30 / minute et je n'ai jamais bloqué google


les bots de google sont beaucoup plus doux qu'il y à quelques années je trouve

je compte prochainemment diminuer à 25 voir 20 pages / minute
 

untictac

WRInaute discret
ok cool ,

Et t'a déja eu des aspirateurs qui font moins de 30 pages minutes ? et qui du coup ne sont pas stoppé ?
 

Ohax

WRInaute accro
HTTP_SERVER_VARS:
DOCUMENT_ROOT => /opt3/local/apache/htdocs
HTTP_CONNECTION => Keep-Alive, TE
HTTP_HOST => www.adojeunz.com
HTTP_KEEP_ALIVE => 300
HTTP_RANGE => bytes=0-19999
HTTP_TE => deflate,gzip;q=0.3
HTTP_USER_AGENT => Schmozilla/v9.14 Platinum
PATH => /usr/bin:/bin
REMOTE_ADDR => 66.17.15.164
REMOTE_PORT => 3618
SCRIPT_FILENAME => /opt3/local/apache/htdocs/sites/a/adojeunz.com//profile.php
SCRIPT_URI => http://www.adojeunz.com//profile.php
SCRIPT_URL => //profile.php

...

c'est nouveau ça...

HTTP_USER_AGENT => Schmozilla/v9.14 Platinum

quelqu'un connait ?

j'ai eu une bonne douzaine d'aspiro depuis ce matin *^%$^ù*
 

Kounte

WRInaute impliqué
untictac a dit:
ok cool ,

Et t'a déja eu des aspirateurs qui font moins de 30 pages minutes ? et qui du coup ne sont pas stoppé ?

Oui, tout est paramétrable, on ne peut pas bloquer une personne qui veut prendre ton site...
 

nautiljon

WRInaute discret
Mais de la a prendre un forum -_- en plus chaque jour y'a des nouvelles réponses, faudrai l'aspirer tous les jours, c'est vraiment nawak, surtout quand on vois la taille d'un forum lol, faut être pas bien :p
 

Ohax

WRInaute accro
nautiljon a dit:
surtout quand on vois la taille d'un forum lol, faut être pas bien :p

pourtant je vient de bloquer 5 httrack en 2 heures là

ça devient soulant :evil: :evil: :evil: de pire en pire
 

Ohax

WRInaute accro
Depuis une semaine je n'ai eu presque aucun aspirateur et pourtant mon traffic à été largemment multiplié grace à google news...

une personne malveillante ?

c'est tout de même bizarre de voir une telle augmentation de traffic sans pour autant une augmentation des aspirateurs qui au contraire semblent avoir presque totallement disparus...
 

nautiljon

WRInaute discret
Les mecs qui vienne de google news utilisent pas d'apirateur de sites et les mecs qui tentaient d'aspirer ton site en ont marre et abandonne.
Enfin c'est qu'une supposition ^^ lol
 

GAMING ZONE

WRInaute impliqué
Sujet tres interressants, mais
avant de bloquer un aspirateur, ancore faut il savoir comment marche les aspirateurs et j'ai deja indiqué sur le forum que les aspirateurs puevent etre configurer sur les parametres suivants :
- respecter le robot.txt ou pas
- Modifier le USER_AGENT ( et donc mettre MSIE6.0 par exemple)
- Temps à attendre entre les differentes requetes ...
- Accepter les cookies
- ...

Bref, en configurant bien son aspirateurs, on doit passé inapercu de n'importe quel script anti aspirateur, donc aucun script est fiable à 100% et celui qui veut aspirer aspirera ...
 

Daktari

WRInaute impliqué
Exact mais il vaut mieux se faire aspirer à la vitesse de 20 pages par minute, plutôt qu'à 100 pages à la minute...
 

Mumuri

WRInaute passionné
un truc par contre pourquoi vous bannissez dans vos script exabot et yandex ???, ce sont des bots de moteurs de recherche pourtant
 

M.o.n.d.i.a.n.i

WRInaute occasionnel
Voila je viens d'integrer le script anti-aspirateur à mon site:
Il vient de me bloquer Google à 20 pages par minute
:roll:

En plus c'est ballot parce que j'ai spécifié 30 pages par minute pour les bots.
Enfin voilà il y avait un petit bug ca devrait etre réglé maintenant.

Sa signature est la suivante: Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)

J'ai fait un whois sur son ip est j'ai obtenu google...


Et merci pour l'info et pour le script.
 

Phix

WRInaute occasionnel
Il y a quelques temps, j'ai bloqué ce que je croyais être un aspirateur. Il revenait tous les jours aspirer un paquet de pages...
Je l'ai donc redirigé vers une page expliquant que son comportement était suspect etc etc...

Il y a quelques jours, en regardant le détail des stats, je me rends compte que cet aspirateur était en fait le bot de aol-recherche qui prend des captures d'écran pour son moteur :(

Vous pouvez voir le résultat ici: http://www.recherche.aol.fr/rech?enc=is ... s&q=rexton (en 1ere position).

C'est con mais au moins ca me fera réfléchir à deux fois avant de bloquer une ip... le pire c'est que j'aurai pu le laisser faire, ma limite de bande passante n'aurait surement pas été dépassée.
 

Phix

WRInaute occasionnel
C'était une ip précise et justement, aucune information sur la signature ne m'avait permis de l'identifier...
Je ne l'ai pas ici mais je pourrai la donner ce soir si c'est utile.
 

Mumuri

WRInaute passionné
un truc par contre celui là faut le bannir
OmniExplorer_Bot/3.28 (+http://www.omni-explorer.com) WorldIndexer

il sature votre bande passante et rend votre site indisponible,une page crawlée toutes les 4 secondes
 

Albert1

WRInaute impliqué
Enfin, avec le genre de script dont parle Ohax en début de topic, on se casse pas le crâne
-> quiconque outrepasse le robots.txt en terme de requêtes est banni ...

j'avoue que ça me facilite bien la vie !
si tout pouvait être aussi simple :D
 

Phix

WRInaute occasionnel
M.o.n.d.i.a.n.i a dit:
Phix a dit:
C'était une ip précise et justement, aucune information sur la signature ne m'avait permis de l'identifier...
Je ne l'ai pas ici mais je pourrai la donner ce soir si c'est utile.

Ouiiiiiiiiiii :D

Puisque c'est demandé si gentillement :D , voici l'ip que je n'aurai jamais du bloquer : 217.74.99.100 (sans aucune garantie que ce soit toujours la même)
 

jean28

WRInaute occasionnel
Je me demande si ça sert vraiment à quelque chose de bloquer ces aspirateurs
J'ai jamais eu de problèmes avec eux, alors à mon avis ça sert à rien,
Vos scripts vont vous manger plus de ressources que les aspirateurs eux mêmes
En tout cas j'ai jamais eu ce genre de problème sur mon site, surement qu'il y en a qui passse, mais de la à rendre mon site indisponible, cela ne m'est jamais arrivé ou alors très très rarement
Et puis vous pouvez pas tous les bloquer
 

ecocentric

WRInaute accro
jean28 a dit:
Je me demande si ça sert vraiment à quelque chose de bloquer ces aspirateurs
J'ai jamais eu de problèmes avec eux, alors à mon avis ça sert à rien,
Vos scripts vont vous manger plus de ressources que les aspirateurs eux mêmes
En tout cas j'ai jamais eu ce genre de problème sur mon site, surement qu'il y en a qui passse, mais de la à rendre mon site indisponible, cela ne m'est jamais arrivé ou alors très très rarement
Et puis vous pouvez pas tous les bloquer

Pour le moment, c'est un peu ma politique, aussi.
Et puis, quand je tombe sur un htaccess qui bloque mon crawler sur son flux RSS (alors que je passe une fois toutes les deux heures), ça me les broute (et je mets généralement ce RSS en quarantaine) ; je n'ai pas envie d'infliger ça aux autres.
D'un autre côté, les crawlers que j'utilise sont des crawlers lents, avec des politiques de crawls précises (templates d'URLs) et je ne crawle pas non plus des forums complets. Ca relativise...
 

M.o.n.d.i.a.n.i

WRInaute occasionnel
Phix a dit:
M.o.n.d.i.a.n.i a dit:
Phix a dit:
C'était une ip précise et justement, aucune information sur la signature ne m'avait permis de l'identifier...
Je ne l'ai pas ici mais je pourrai la donner ce soir si c'est utile.

Ouiiiiiiiiiii :D



Puisque c'est demandé si gentillement :D , voici l'ip que je n'aurai jamais du bloquer : 217.74.99.100 (sans aucune garantie que ce soit toujours la même)

merci :D
 

M.o.n.d.i.a.n.i

WRInaute occasionnel
jean28 a dit:
Je me demande si ça sert vraiment à quelque chose de bloquer ces aspirateurs
J'ai jamais eu de problèmes avec eux, alors à mon avis ça sert à rien,
Vos scripts vont vous manger plus de ressources que les aspirateurs eux mêmes
En tout cas j'ai jamais eu ce genre de problème sur mon site, surement qu'il y en a qui passse, mais de la à rendre mon site indisponible, cela ne m'est jamais arrivé ou alors très très rarement
Et puis vous pouvez pas tous les bloquer

Si vous relisez tout le tralala ca part d'un serveur qui a été mis sur les genoux ou de bandes passantes à moitié consommé par les aspi.

De mon coté le serveur etait sur les genoux - j'ai réécrit le code pour qu'il consomme (beaucoup) moins de ressources... simplement en tenant compte des navigateurs qui n'acceptent pas de cookies.

L'antiaspi (sans entete .htaccess) est un plus ca me permet de conserver des ressources pour tous mes visiteurs et pas juste pour un visiteur cliqueur compulsif.
 

Mumuri

WRInaute passionné
jean28 a dit:
Je me demande si ça sert vraiment à quelque chose de bloquer ces aspirateurs
J'ai jamais eu de problèmes avec eux, alors à mon avis ça sert à rien,
Vos scripts vont vous manger plus de ressources que les aspirateurs eux mêmes
En tout cas j'ai jamais eu ce genre de problème sur mon site, surement qu'il y en a qui passse, mais de la à rendre mon site indisponible, cela ne m'est jamais arrivé ou alors très très rarement
Et puis vous pouvez pas tous les bloquer
si t'a une limite de traffic par moi, ca te sert à quelquechose ;)

je voudrais savoir si ce htaccess était toujours d'actualité ??

est ce qu'il est possible de définir des "ip" surs (genre les robots de google) dans un htacess

j'ai vu des scripts php sur le forum, est ce que leur utilisation est vraiment nécéssaire.

edit:

c'est bon j'ai trouvé le truc de baltyre, on met çà dans un fichier ban.php

on fait un url rewriting sur des fichiers de la forme [0-9]+ban.php
et on met des liens vers le fichier un peu partout sur le site
00987ban.php , 00987 étant un nombre aléatoire
<?
$htaccess="\nDeny from ".$_SERVER["REMOTE_ADDR"];
$fp = fopen(".htaccess","a");
if (flock($fp, LOCK_EX)) {
fputs($fp,$htaccess);
flock($fp, LOCK_UN);
}
fclose($fp);
?>
[/code]
 

futurama2185

Nouveau WRInaute
Je viens de compiler de plusieurs versions de user agent provenant de différent site + mon propre travail (dont les derniers a jours) afin de proposer quelques choses d’optimal dans un seul fichier. Hélas, j’ai du faire quelques petites erreurs de manipulation, j’obtiens une erreur serveur 500, je ne possède pas trop de temps pour étudier ce problème, je fais donc appel a vous, pour que vous m’aidiez à l’alléger en compactant (pour rendre rapide traitement) NE RIEN SUPPRIMER. Et bien sur trouver l’erreur qui fait que le fichier réponde erreur 500.

Celui qui accepetera de faire le compactage et de corriger les erreur car je suis pas fort en programmation. Il pourra l editer, le signer avec son pseudo et le mien dans le fichier.

Je l offre, c est pour améliorer les barrages contre les aspirateurs et autres... merci. Le lien pour telecharger et corriger sans rien supprimer : http://gdidier2.free.fr/pb/htacces.zip

PS : je crois avoir oublié de rajouter ce provenant de ce lien, si quelqu'un veut le faire pour la sécurite et le bonheur de chacun http://www.psychedelix.com/agents/index.shtml
De plus, ils ne sont pas tous en NC, OR si quelqu'un veut participer pour compléter.
 

Cartapus

WRInaute occasionnel
Je ne sais pas si ça a déjà été dit ou remarqué mais une ligne dans le code du premier post semble être trop restrictive. Il s'agit de
Code:
RewriteCond %{HTTP_USER_AGENT} [0-9A-Za-z]{15,} [OR]
qui bloque cette signature (visiteur humain et innocent)
Code:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; SpamBlockerUtility 4.8.0)

Je ne comprend pas trop pourquoi d'ailleurs, mais je l'ai quand même supprimée du htaccess
 

Discussions similaires

Haut