Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Quelle politique face aux bad bots (scrapper) ?

Poster un nouveau sujet Imprimer cette discussion    Forum -> Administration d'un site Web   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
the wanderer
Nouveau WRInaute

Inscrit le: 27 Oct 2006
Messages: 13

URL permanente de ce messagePosté le : Mer Nov 22, 2006 0:12    Sujet du message: Quelle politique face aux bad bots (scrapper) ?

Bonjour,

Un de mes sites (un blog Dotclear hébergé sur un mutualisé 1&1) et régulièrement visité par un bot.

C'est un service un peu équivalent a netvibes permettant a l'utilisateur d'afficher des flux choisis sur sa page. (je n'ai pas approfondi)

Le bot passe toute le 20 minutes sur mon site, et à chaque passe, il charge le flux plus de 1000 fois..
Résultat, mon site est down 3 fois par heure pendant le temps ou le crawl s'effectue.

Je l'ai inclus dans mon fichier robots.txt :

Code:

User-agent: nom_du_bot
Disallow: /


Mais il ne respecte pas les directives.

J'ai contacté le webmaster, mais il considère que si je ne lui donne pas l'URL de mon site, il ne peut rien faire pour moi.

Je lui rétorque que mon site etant un site standard, sur un hébérgement standard, le problème ne doit pas être traité au cas par cas, mais qu'il devrait rendre son crawl (en fait c'est un Wget géré par un cron) compliant avec le fichier robots.txt.

sa réponse :
Citation:

Par ailleurs, à confirmer, mais des services similaires comme netvibes ne tiennent pas comptent du robots.txt il me semble. (Attention toutefois je ne dis pas que si eux ne le font pas, je ne devrais pas le faire aussi)


Alors je peux faire un .htaccess du type :

Code:

order allow,deny
allow from all

deny from 82.234.98.112


mais je me demandais, en règle générale, quelle attitude vous adoptiez face à ces bots qui se multiplient et qui commence à énerver de plus en plus de monde. (voir http://incredibill.blogspot.com/ ) ?

(Je ne donne pas le nom du site, je suis pas sur que cela soit permis ici, et puis des crawlers insane, il y en a d'autres)
 
the wanderer
rog
WRInaute accro
WRInaute accro

Inscrit le: 21 Sep 2006
Messages: 1662
Localisation: sapucaia do sul (RS)

URL permanente de ce messagePosté le : Mer Nov 22, 2006 6:24    Sujet du message: Quelle politique face aux bad bots (scrapper) ?

si ton site est down à cause de lui c'est du denial of service

moi je me suis fait scanner par un imbecile qui utilisait acunetix

le mec m'a scanné 5 fois (comme si une fois ça suffisait pas) sur mes 2 services online il a ouvert 16000 pages

c'est la derniere fois que quelqu'un me scannera avec acunetix, j'ai les query string et je vais pondre un filtre

pour les bots, c'est pareil, faut ouvrir les logs et trouver un unic id

rog
 
rog Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Administration d'un site Web Toutes les heures sont au format GMT + 1 Heure
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort