Quelle politique face aux bad bots (scrapper) ?

Discussion dans 'Administration d'un site Web' créé par the wanderer, 22 Novembre 2006.

  1. the wanderer
    the wanderer Nouveau WRInaute
    Inscrit:
    27 Octobre 2006
    Messages:
    12
    J'aime reçus:
    0
    Bonjour,

    Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.

    C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)

    Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
    Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.

    Je l'ai inclus dans mon fichier robots.txt :

    Code:
    User-agent: nom_du_bot
    Disallow: /
    
    Mais il ne respecte pas les directives.

    J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.

    Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.

    sa réponse :
    Alors je peux faire un .htaccess du type :

    Code:
    order allow,deny
    allow from all
    
    deny from 82.234.98.112
    
    mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?

    (Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
     
  2. rog
    rog WRInaute passionné
    Inscrit:
    21 Septembre 2006
    Messages:
    1 346
    J'aime reçus:
    0
    si ton site est down à cause de lui c'est du denial of service

    moi je me suis fait scanner par un imbecile qui utilisait acunetix

    le mec m'a scanné 5 fois (comme si une fois ça suffisait pas) sur mes 2 services online il a ouvert 16000 pages

    c'est la derniere fois que quelqu'un me scannera avec acunetix, j'ai les query string et je vais pondre un filtre

    pour les bots, c'est pareil, faut ouvrir les logs et trouver un unic id

    rog
     
Chargement...
Similar Threads - politique face bad Forum Date
Rédiger politique cookies Droit du web (juridique, fiscalité...) 14 Mai 2018
[Blog] Vie Saine, Politique, Made in France Demandes d'avis et de conseils sur vos sites 18 Janvier 2016
Quelle est la bonne politique d'ancres avec pingouin? Netlinking, backlinks, liens et redirections 4 Novembre 2013
Quelle politique de liens adopter avec le gentil pingouin? Netlinking, backlinks, liens et redirections 5 Juillet 2013
Supprimer le Seo pour améliorer Adwords ? nouvelle politique ? Référencement Google 25 Août 2012
Google va expliquer à La CNIL sa nouvelle politique de confidentialité Google : l'entreprise, les sites web, les services 17 Mai 2012
La nouvelle politique de confidentialité de Google critiquée par le Congrès américain Google : l'entreprise, les sites web, les services 3 Février 2012
Politiques commerciales Débuter en référencement 19 Janvier 2012
Changement dans la politique de gestion de marques sur AdWords AdWords 4 Août 2010
Politique de liens.. pas évident Débuter en référencement 30 Novembre 2009
Quelle politique pour les backlinks pour 1 bon référencement Netlinking, backlinks, liens et redirections 31 Janvier 2009
Adwords VS la politique? en règle?? AdWords 12 Novembre 2008
Blog Politique - Une petite évaluation svp? Demandes d'avis et de conseils sur vos sites 31 Octobre 2007
La politique caché des annuaires (sujet choc) Annuaires et moteurs 8 Septembre 2007
Quelle politique d' échange de liens Netlinking, backlinks, liens et redirections 7 Juin 2007
P3P : Déclarer sa politique de sécurité Développement d'un site Web ou d'une appli mobile 14 Mai 2007
Quand Adwords sert la politique AdWords 7 Mars 2007
Une page, test politique qui débouche sur 4000 autres pages Débuter en référencement 17 Février 2007
Google NetPAC, le moteur se met à la politique Référencement Google 18 Novembre 2006
Indexation impossible: nouvelle politique de Google pour Adw Crawl et indexation Google, sitemaps 19 Octobre 2006