Fichier robots.txt et user-agent

Nouveau WRInaute
Bonjour a tous,
En regardant les logs de mon serveur , je constate qu'il y a plusieurs robots qui effectuent des requetes.
Je ne veux pas bien evidemment empecher GG d'indexer mon site (bien au contraire) mais je suis sur qu'il y a certain robots qui n'apportent rien a mon site.
Je me suis donc dis qu'il faut que je remplisse un peu mieux mon robots.txt , et j'ai regarder celui de WRI pour avoir un exemplet et la surprise, il y en a un nombre enorme!!
Ma question est: puis-je sans souci recopier la liste d'exclusion des user-agents de WRI ou cela risque-t-il de penaliser mon site (qui il faut le dire n'a pas du tout la meme carrure)?
 
Nouveau WRInaute
Bah je sais pas, je suis debutant, mais si c'est pas pour les robots c'est quoi cette liste dans le robots.txt de WRI?
Et sinon tu fais comment dans le htacess? et tu bloque quoi?
 
WRInaute accro
Voila ce que j'ai dans mon .htaccess dans la section réservée aux "indésirables" ou à ceux assimilés comme tel :mrgreen:
Code:
Options +FollowSymlinks
RewriteEngine on

RewriteCond %{HTTP_REFERER} XXX
RewriteCond %{HTTP_USER_AGENT} -?$ [OR]
RewriteCond %{HTTP_USER_AGENT} @nonymouse [OR]
RewriteCond %{HTTP_USER_AGENT} Advanced\ Email\ Extractor [OR]
RewriteCond %{HTTP_USER_AGENT} almaden [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Art-Online [OR]
RewriteCond %{HTTP_USER_AGENT} CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} Crescent\ Internet\ ToolPack [OR]
RewriteCond %{HTTP_USER_AGENT} DirectUpdate [OR]
RewriteCond %{HTTP_USER_AGENT} DISCo\ Pump.* [OR]
RewriteCond %{HTTP_USER_AGENT} Download\ Accelerator [OR]
RewriteCond %{HTTP_USER_AGENT} Drip.* [OR]
RewriteCond %{HTTP_USER_AGENT} eCatch.* [OR]
RewriteCond %{HTTP_USER_AGENT} echo\ extense [OR]
RewriteCond %{HTTP_USER_AGENT} EirGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ExtractorPro.* [OR]
RewriteCond %{HTTP_USER_AGENT} EyeNetIE.* [OR]
RewriteCond %{HTTP_USER_AGENT} FairAd\ Client.* [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [OR]
RewriteCond %{HTTP_USER_AGENT} flashget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlashGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} frontpage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Gets.* [OR]
RewriteCond %{HTTP_USER_AGENT} Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} Go-Ahead-Got-It.* [OR]
RewriteCond %{HTTP_USER_AGENT} Grafula.* [OR]
RewriteCond %{HTTP_USER_AGENT} HTTP\ agent [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPConnect [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver.* [OR]
RewriteCond %{HTTP_USER_AGENT} IBrowse.* [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} InterGET.* [OR]
RewriteCond %{HTTP_USER_AGENT} Internet\ Ninja.* [OR]
RewriteCond %{HTTP_USER_AGENT} InternetLinkAgent.* [OR]
RewriteCond %{HTTP_USER_AGENT} IPiumBot\ laurion(dot)com [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} iwantmyxxx.com.* [OR]
RewriteCond %{HTTP_USER_AGENT} JetCar.* [OR]
RewriteCond %{HTTP_USER_AGENT} JustView.* [OR]
RewriteCond %{HTTP_USER_AGENT} Kapere [OR]
RewriteCond %{HTTP_USER_AGENT} LeechGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} lftp.* [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR]
RewriteCond %{HTTP_USER_AGENT} MIDown\ tool.* [OR]
RewriteCond %{HTTP_USER_AGENT} MIIxpc.* [OR]
RewriteCond %{HTTP_USER_AGENT} minibot\ (NaverRobot\ ) [OR]
RewriteCond %{HTTP_USER_AGENT} Mister\ PiX.* [OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy.* [OR]
RewriteCond %{HTTP_USER_AGENT} NearSite.* [OR]
RewriteCond %{HTTP_USER_AGENT} NetSpider.* [OR]
RewriteCond %{HTTP_USER_AGENT} NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Explorer.* [OR]
RewriteCond %{HTTP_USER_AGENT} Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} PageGrabber.* [OR]
RewriteCond %{HTTP_USER_AGENT} Papa\ Foto.* [OR]
RewriteCond %{HTTP_USER_AGENT} PlantyNet_WebRo.* [OR]
RewriteCond %{HTTP_USER_AGENT} Pockey.* [OR]
RewriteCond %{HTTP_USER_AGENT} Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} QuepasaCreep [OR]
RewriteCond %{HTTP_USER_AGENT} ReGet.* [OR]
RewriteCond %{HTTP_USER_AGENT} SilentSurf.* [OR]
RewriteCond %{HTTP_USER_AGENT} SiteMapper [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp.* [OR]
RewriteCond %{HTTP_USER_AGENT} SpaceBison.* [OR]
RewriteCond %{HTTP_USER_AGENT} Star\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} SuperHTTP.* [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} tAkeOut.*
RewriteCond %{HTTP_USER_AGENT} Teleport.* [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} TuringOS [OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} vobsub [NC,OR]
RewriteCond %{HTTP_USER_AGENT} wantmy.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Image\ Collector.* [OR]
RewriteCond %{HTTP_USER_AGENT} Web\ Sucker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebAuto.* [OR]
RewriteCond %{HTTP_USER_AGENT} webbandit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WebCapture [OR]
RewriteCond %{HTTP_USER_AGENT} webcollage [OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebDAV [OR]
RewriteCond %{HTTP_USER_AGENT} WebEmailExtractor [OR]
RewriteCond %{HTTP_USER_AGENT} WebFetch.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebSauger.* [OR]
RewriteCond %{HTTP_USER_AGENT} WEBsaver [OR]
RewriteCond %{HTTP_USER_AGENT} Website\ Quester.* [OR]
RewriteCond %{HTTP_USER_AGENT} Webster.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebStripper.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebWhacker.* [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} WebZIP.* [OR]
RewriteCond %{HTTP_USER_AGENT} WFARC.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wget.* [OR]
RewriteCond %{HTTP_USER_AGENT} Wysigot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^Maxthon [NC,OR]
RewriteRule ^.*$ https://www.google.com [R,L]

En clair : "si user-agent fait partie de cette liste alors les rediriger vers ... google.com" :mrgreen:

A ceux qui se demandent pourquoi j'ai rajouté "Maxthon" c'est tout simplement parce-que j'avais subis un DDOS provenant de ce browser...
 
Nouveau WRInaute
Merci pour vos reponse, si j'ai bien compris, l'unique moyen de réelement empêcher ces user-agent de sonder mon site est le htaccess, le robots.txt n'étant pas forcement pris en compte si l'initiateur du robot ne le désire pas.
 
WRInaute accro
Le nec plus ultra c'est de virer automatiquement les gros "gourmands" qui font un peu trop de requetes à la seconde.
C'est possible sur un serveur dédiée (iptables...) mais sur un mutualisé, je vois pas trop comment faire.
 
Discussions similaires
Haut