Quoi pour détecter les méchants Bots ?

Discussion dans 'Débuter en référencement' créé par 1-sponsor, 6 Mai 2010.

  1. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 425
    J'aime reçus:
    4
    le forum de débutants fera l'affaire... :D

    salut à tous,

    Je vois quelques membres ici causes des méchants bots qu'ils détectent sur leur site... je me suis mis à bloquer les bots connus avec un htaccess, ce qui me semble carrément indispensable.

    Ma question est : quel sont les meilleurs solutions dispo. pour détecter facilement les bots qui parcours nos sites ? Je pense qu'il y a autre chose que la lecture des logs du serveur, mais quoi ?

    Merci au pro qui saura m'instruire :wink: :!:
     
  2. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    Si c'est un bot "propre" qui respecte robots.txt (et qui dont le lit), tu renvoies le robots.txt vers un script qui va logger les IPs et User-Agents de bots en question.

    Mais tu peux nous donner un exemple d'un "méchant" bot qu'il y aurait un intérêt à bloquer?

    Jacques.
     
  3. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 158
    J'aime reçus:
    0
    le bot JAVA par exemple, si non y a des listes et puis BaiDuSpider si tu ne risque pas d'avoir de client en chine, parce que faut pas déconner il vient 40 000 fois par jour tous les jours alors que le site n'a pas changer, alors je veux bien parce que j'ai la bande passante illimité chez 1AND1 sur mon packpro performance, m'enfin tout de même.
     
  4. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 425
    J'aime reçus:
    4
    Le but est de bloquer les méchants, bien sûr, qui se foutent du robots.txt... J'ai pas d'exemple en tête, sinon je ne chercherais pas la solution pour détecter-traquer les bot :D

    Je bloque déjà Java...

    En fait sur certains serveurs et à certains moments, j'ai des consommations de malades et je sais que c'est à cause de bots, je voudrais bien pouvoir lire d'un simple coup d'œil lesquels sont en cause, et pouvoir le refaire à l'avenir :) Franchement pour moi, toute économie de mon serveur est bonne à prendre, surtout dans ces temps ou google prend comme critère la vitesse d'affichage du site :)
     
  5. Olivença livre
    Olivença livre WRInaute discret
    Inscrit:
    30 Novembre 2004
    Messages:
    151
    J'aime reçus:
    0
    c'est un pb récurrent ... je me demandais si on ne pouvait pas récupérer leur ip ou autre chose qui les caractérise et les virer. je n'ai pas encore trouvé la solution ... :cry:
     
  6. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 425
    J'aime reçus:
    4
    Pas de solution pour détecter facilement les bot qui visite notre serveur... en fait je pensais à un truc style "google analytics" qui donne la liste des bots ou du genre...
     
  7. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 158
    J'aime reçus:
    0

    y avait un truc en PHP qui utilisait google analytics, mais je l'ai retiré car j'ai eut l'impression que ça introduisais un HACK de mes FICHIER HTML qui semblait être modifier, donc j'évite se genre de truc, tant que j'y connais rien au PHP.
     
  8. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    Il y a (au moins) deux types de bots dont on parle ici:
    - les "bons" bots, qui même s'ils abusent ou ne sont pas très uriles, respectent robots.txt (ça doit être le cas de Baidu je suppose)
    - les "méchants" bots, qui sont plus souvent des tentatives de hack et autres choses du genre, qui ne respectent rien

    Dans les deux cas, ils ne sont pas visibles par Analytics (pour être visible dans GA, il faut que le client exécute le code JS...).

    Les premiers peuvent être éliminés via robots.txt, autant passer par là.

    Les deuxièmes, par définition, ne sont pas forcément très faciles à repérer: ils n'ont pas forcément un user-agent bien défini, leurs adresses IP peuvent changer (surtout dans le cas de worms et autres botnets). Là, pas de miracle, à part un IDS qui va automatiquement alimenter les règles d'un firewall, pas grand chose d'automatique à faire...

    Jacques.
     
  9. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 425
    J'aime reçus:
    4
    À en voir vos (rares) réponses, je commence à croire que ce que je cherche n'existe pas.

    En creusant j'ai trouvé quelques posts. Je les mets en compléments (pas encore eu le temps de tout lire).

    https://www.webrankinfo.com/forum/t/bot-de-spam-que-je-ne-parviens-pas-a-bloquer.93544/
    https://www.webrankinfo.com/forum/t/descriminer-les-bots-spam-etc.46343/
    https://www.webrankinfo.com/forum/frequence-passage-des-robots-bon-script-i ... t5153.html
    https://www.webrankinfo.com/forum/t/comment-detecter-google-bot-en-php.78298/
    https://www.webrankinfo.com/forum/t/creation-dun-bot-analyseur.31826/

    Au final et après réflexion, je crois que je vais devoir mettre en place un script + une BDD avec une table composée d'un champ unique : User-agent
    et y enregistrer tout ce qui passe dedans. :eek:
     
  10. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    La liste des User-Agents unique est très, très longue. J'en ai une liste de plus de 20 millions...

    Jacques.
     
  11. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 425
    J'aime reçus:
    4
    gloups... :eek:

    merci pour l'info jacques... je tenterais de trouver une parade...

    par exemple :

    - logger les user-agent, avec un timestamp et donc une durée de vie en base de donnée avant une futur suppression ...
    - si le user-agent a été detecté, par exemple, pour 100 hits en 10 minutes (avant sa supression, expiration de durée de vie) => hop transfert dans une deuxième base de donnée "useragent_grostrafic"... quelque chose du genre...

    bon. je vois que tu as creuser la question et que tu n'as pas de solution toute prête :D mais bon moi, ce qui serait bien, c'est déjà d'identifier les bots les plus pourris qui trainent chez moi... les pires ! je ne cherche pas vraiment de solution permettant de bloquer "tous" les bots inutiles.

    merci pour tes interventions jacques
     
  12. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    Je pense que tu vas vite te rendre compte que ceux qui posent problème (les botnets, worms et compagnie) ne sont souvent pas identifiables par leur User-Agent. Ils ne viennent pas chez toi en disant "bonjour je suis botnet/1.0"... Enfin il doit y en avoir quelques-uns quand même, les script-kiddies ne sont pas très futés.

    Jacques.
     
  13. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 425
    J'aime reçus:
    4
    Bah, je cherche à identifier les bots, quand même, relativement honnêtes... C'est sûr qu'il y a encore pire que les méchants bots, les bots de hackeurs etc...

    Pour donner un exemple de bot que j'ai pu identifier sur mon serveur, c'est celui de yandex... bon je m'en fout qu'il consomme ma BP celui là. J'ai aussi un bot nommé "Mxbot". Je sais pas trop à quoi il sert celui là, le site d'infos anglais officiel du bot semble honnête.
    J'ai pas à cherché l'utilité... je le connais pas, je le bloque.

    En gros... Si je pouvais gagner quelques millièmes de secondes de temps de réponse lors des heures de pointe sur mes sites, je serais content :) :) j'imagine que tu as étudié le problème pour un projet bien plus conséquent qu'un site unique (régie pub...) :)

    edit : je confonds, c'est pas mxbot, c'est "spinn3r (indexing the blogoshpere)" dont je parlais...
     
  14. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    Ben pour des bots comme ça, le plus simple: tu rediriges ton robots.txt vers un script qui loggue les user-agents et les IPs avant de renvoyer son contenu. Ensuite tu peux décider ceux qui te plaisent ou pas et les ajouter au robots.txt renvoyé (tu peux même automatiser ça en générant le contenu du robots.txt à partir de la liste des user-agents en base avec un flag qui dit si tu le veux ou pas).

    Jacques.
     
  15. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 158
    J'aime reçus:
    0
    et pourquoi pas une whitelist des users agent pour commencer!!!!!
     
  16. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 361
    J'aime reçus:
    2
    il me semble que les bots sont visibles dans les stats de 1&1 :)
     
  17. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
    et un robots.txt de ce genre ?
    Code:
    User-agent: *
    Disallow: /
    
    User-agent: Googlebot
    User-agent: Mediapartners-Google
    User-agent: Googlebot-Mobile
    User-agent: googlebot-Image
    User-agent: ng
    User-agent: exabot
    User-agent: msnbot
    User-agent: Teoma
    User-agent: voila
    User-agent: Slurp
    Disallow: 
    comme ça on n'autorise qu'un tout petit nombre de robots. Les "bons" bots sans intérêt pour notre coeur de cible respecteront ce fichier et les mauvais, on bloque leurs ip & UA dans le htaccess
     
  18. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 158
    J'aime reçus:
    0
    à mon avis une blacklist des IP dans un .HTACCESS serai plus utile, parce que certains respecter les règles édicté par le robots.txt, et les plus méchants des BOT s'en cogne comme de leurs première impulsion binaire.
     
  19. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
    si tu avais lu correctement mon message du dessus, tu aurais vu que c'était la solution que je préconisais (robots.txt + .htaccess)
     
  20. bulle972
    bulle972 Nouveau WRInaute
    Inscrit:
    13 Avril 2010
    Messages:
    14
    J'aime reçus:
    0
    Perso, j'utilise CrawlProtect et à côté j'y ai créé un piège à bots avec un lien bidon non accessible pour les utilisateurs normaux, mais que les bots se permettent de suivre et se font directement blaclistés par l'ajout de l'IP au htaccess ou envoi par mail des informations concernant celui qui a visité la page.
    http://www.crawlprotect.com/fr/
     
  21. Firewave
    Firewave WRInaute passionné
    Inscrit:
    26 Juillet 2009
    Messages:
    1 910
    J'aime reçus:
    0
    Très intelligent pour le coup :)
     
  22. Falancio
    Falancio Nouveau WRInaute
    Inscrit:
    19 Octobre 2006
    Messages:
    2
    J'aime reçus:
    0
    Pour ma part j'utilise blockerip.com , ça filtre un bon nombre de bots (via user-agent) et dispose d'une bonne base de données d'adresses IP de bots. Ca a résolu mon problème à ce niveau là ...
     
  23. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    1
    Idem avec 4 variantes :

    1 - J'ai caché non pas 1 mais 6 pieges a mechant bot dans chaque page et ils changent de place en permanence
    2 - Au passage ils changent aussi de nom en permanence
    3 - Je ne fais pas un blacklistage hard par ht access mais un blacklistage soft "stockage des ip bannies" et lorsque l ip en question revient, un header vers une page "va te faire voir chez les ploucs" :wink:
    4 - memo dans un journal pour garder un historiques des blacklistages et des tentatives échouées de relecture d'autres pages ... (et c ets la qu'on voit que la plupart des aspi, c'est con comme des poubelles sans poignées ... ca revient et ca revient inlassablement se vautrer sur le "va te faire voir chez les ploucs" ! :mrgreen: )

    Ca m'en colle entre 3 et 10 par jour ssur le ruban a mouche !
     
  24. jcaron
    jcaron WRInaute accro
    Inscrit:
    13 Février 2004
    Messages:
    2 593
    J'aime reçus:
    0
    L'expression consacrée est "pot de miel" (honeypot), mais ruban à mouches ça le fait aussi :)

    Jacques.
     
  25. Zecat
    Zecat WRInaute accro
    Inscrit:
    1 Mars 2005
    Messages:
    9 176
    J'aime reçus:
    1
    je voulais pas gacher du bon miel pour ces parasites ... un ruban de glue c'est tout ce qu'ils méritent :mrgreen:

    Tiens le dernier qui s'y est collé (4 Ips de concert via proxy collées en même temps) :

    188.165.16.155 (pologne)
    188.165.23.26 (pologne)
    87.98.234.186 (pologne)
    94.23.211.138 (france)

    :wink:

    Illustration dans mes logs :

    Code:
    08:46:58*pl*188.165.23.26**=== IP BAN (***)
    08:46:58*fr*94.23.211.138**=== IP BAN (***)
    08:46:58*pl*188.165.16.155**=== IP BAN (***) 
    08:46:59*fr*94.23.211.138**=== IP BAN (***) 
    08:46:59*fr*94.23.211.138**=== IP BAN (***) 
    08:47:00*pl*188.165.23.26**=== IP BAN (***) 
    08:47:00*fr*94.23.211.138**=== IP BAN (***) 
    08:47:00*fr*94.23.211.138**=== IP BAN (***) 
    08:47:01*pl*188.165.16.155**=== IP BAN (***) 
    08:47:01*fr*94.23.211.138**=== IP BAN (***) 
    08:47:02*pl*87.98.234.186**=== IP BAN (***) 
    08:47:03*fr*94.23.211.138**=== IP BAN (***) 
    08:47:03*fr*94.23.211.138**=== IP BAN (***) 
    08:47:03*pl*188.165.23.26**=== IP BAN (***) 
    08:47:04*pl*188.165.16.155**=== IP BAN (***) 
    08:47:04*pl*188.165.16.155**=== IP BAN (***) 
    08:47:05*pl*87.98.234.186**=== IP BAN (***) 
    08:47:05*pl*87.98.234.186**=== IP BAN (***) 
    08:47:06*fr*94.23.211.138**=== IP BAN (***) 
    08:47:06*pl*188.165.23.26**=== IP BAN (***) 
    08:47:07*pl*188.165.23.26**=== IP BAN (***) 
    08:47:07*fr*94.23.211.138**=== IP BAN (***) 
    08:47:08*pl*87.98.234.186**=== IP BAN (***) 
    08:47:08*pl*87.98.234.186**=== IP BAN (***) 
    08:47:08*fr*94.23.211.138**=== IP BAN (***) 
    08:47:09*pl*188.165.16.155**=== IP BAN (***) 
    08:47:09*pl*87.98.234.186**=== IP BAN (***) 
    08:47:10*pl*188.165.23.26**=== IP BAN (***) 
    08:47:10*pl*188.165.23.26**=== IP BAN (***) 
    08:47:10*fr*94.23.211.138**=== IP BAN (***) 
    08:47:11*fr*94.23.211.138**=== IP BAN (***) 
    08:47:11*fr*94.23.211.138**=== IP BAN (***) 
    08:47:11*pl*188.165.23.26**=== IP BAN (***) 
    08:47:12*pl*188.165.23.26**=== IP BAN (***) 
    08:47:12*pl*188.165.16.155**=== IP BAN (***) 
    08:47:12*pl*188.165.23.26**=== IP BAN (***) 
    08:47:13*pl*87.98.234.186**=== IP BAN (***) 
    08:47:13*pl*188.165.16.155**=== IP BAN (***) 
    08:47:13*pl*87.98.234.186**=== IP BAN (***) 
    08:47:14*pl*87.98.234.186**=== IP BAN (***) 
    08:47:14*pl*188.165.23.26**=== IP BAN (***) 
    08:47:15*pl*87.98.234.186**=== IP BAN (***) 
    08:47:15*pl*188.165.23.26**=== IP BAN (***) 
    08:47:16*pl*188.165.23.26**=== IP BAN (***) 
    08:47:16*pl*87.98.234.186**=== IP BAN (***) 
    08:47:16*fr*94.23.211.138**=== IP BAN (***) 
    08:47:17*fr*94.23.211.138**=== IP BAN (***) 
    (***) c'est en fait la page que le bot a voulu visité ... Bon cette "fine equipe" j'ai fini par la coller aussi en htaccess parce que la ils insistaient un peu trop ... :!:
     
Chargement...
Similar Threads - détecter méchants Bots Forum Date
[PHP] Détecter le navigateur / bot en fonction du HTTP_USER_AGENT Développement d'un site Web ou d'une appli mobile 14 Septembre 2019
Astuce Détecter un bot qui fausse vos stats Google Analytics 1 Mars 2019
Comment détecter des noms de domaines pourris dans les mails ? Problèmes de référencement spécifiques à vos sites 30 Mai 2018
Outil pour détecter le contenu dupliqué Débuter en référencement 1 Août 2017
Détecter le premier slash URL Rewriting et .htaccess 5 Juillet 2017
[PHP] Détecter le navigateur / bot en fonction du HTTP_USER_AGENT Développement d'un site Web ou d'une appli mobile 12 Janvier 2017
Comment détecter les sites satellites Netlinking, backlinks, liens et redirections 5 Avril 2016
script qui détecterait quand l'internaute se connecte avec un telephone et le rediregeré Développement d'un site Web ou d'une appli mobile 5 Juin 2015
Pourquoi analytics pourrait avoir de la difficulté à détecter l'acquisition d'un site? Google Analytics 3 Juillet 2014
[Idée ?] Détecter la présence de cookies Développement d'un site Web ou d'une appli mobile 5 Décembre 2013