Exclure les robots des fichiers de log IIS

Nouveau WRInaute
Comment peut-on faire pour exclure des logs d'un serveur Web (en l'occurrence IIS6) les requêtes effectués par les robots ?
J'utilise LogAnalyzer du SDK IIS qui permet de faire des requêtes avec des filtres mais je ne sais pas sur quel champ des log basée ma requête pour exclure les robots.
L'objectif étant d'avoir des stats de fréquentation sans les requêtes des robots !
 
WRInaute occasionnel
Il faut mettre ton filtre sur le champ User-Agent. Une autre méthode pourrait être de commencer par extraire une liste d'adresses IP et/ou User-Agent ayant accédé à ton robots.txt, puis de les exclure de tes analyses.

Fred
 
Nouveau WRInaute
iconso a dit:
Il faut mettre ton filtre sur le champ User-Agent. Une autre méthode pourrait être de commencer par extraire une liste d'adresses IP et/ou User-Agent ayant accédé à ton robots.txt, puis de les exclure de tes analyses.

Fred
Où puis-je trouve une liste exhaustive des user-agent envoyés par les principaux robots ?

Merci
 
Nouveau WRInaute
Exemple de requête avec le logparser du SDK IIS6

Voici la requête que j'ai faite pour exclure les robots (certains) de mes fichiers de log IIS6 :

logparser "SELECT * FROM C:\WINDOWS\system32\LogFiles\Easimmo\W3SVC1045425633\ex0501.log TO GetAllExceptInternalAndRobots.txt WHERE INDEX_OF(cs(User-Agent) , 'Googlebot') < 0 and INDEX_OF(cs(User-Agent) , 'msnbot') < 0 and INDEX_OF(cs(User-Agent) , 'Slurp') < 0 and INDEX_OF(cs(User-Agent) , 'InnerpriseBot') < 0 and INDEX_OF(cs(User-Agent) , 'Crawl')<0 and INDEX_OF(cs(User-Agent) , 'Mediapartners-Google') < 0 and INDEX_OF(cs(User-Agent) , '+Ask+Jeeves/Teoma') < 0 and INDEX_OF(cs(User-Agent) , 'SurveyBot') < 0 and INDEX_OF(cs(User-Agent) , 'psbot') < 0 and INDEX_OF(cs(User-Agent) , 'moteur+IDF.net') < 0 and INDEX_OF(cs(User-Agent) , 'WISEnutbot') < 0 and INDEX_OF(cs(User-Agent) , 'NG/2.0') < 0 and INDEX_OF(cs(User-Agent) , 'PHP/') < 0 and INDEX_OF(cs(User-Agent) , 'libwww-perl') < 0 and INDEX_OF(cs(User-Agent) , 'Python') < 0 and sc-status <> 404 ORDER BY date, time" -o:W3C

Le SDK IIS6 est disponible à : http://www.microsoft.com/downloads/deta ... laylang=en
 
Nouveau WRInaute
Bonjour,
Les robots ne sont pas obligés d'utiliser un User Agent contenant leur nom.... ils peuvent utiliser un UA vide par exemple pour tromper tout le monde
Y a t il une autre methode pour les detecter ?
Merci de votre aide
Stéphane
 
WRInaute accro
Pour un analyseur de fichiers log de 1ère classe, voir AWStats. Il est gratuit, il est disponible en version française et il sépare très bien les robots des visiteurs humains.

Jean-Luc
 
Discussions similaires
Haut