GoogleBot : le vrai et les faux

WRInaute accro
Après les faux Rubens, les faux Picasso, voilà les faux GoogleBot :twisted:

Mon site a été visité par quelqu'un qui s'identifie avec Googlebot/2.1 (+https://www.google.com/bot.html), mais qui n'est, en fait, qu'un browser trafiqué! L'adresse IP du visiteur ne permet aucun doute la-dessus.

Avis donc à ceux qui disent qu'ils ont eu récemment des visites inhabituelles des Googlebot...

Jean-Luc
 
WRInaute passionné
Certains utilisent cette méthode pour aspirer les sites : beaucoup de webmasteurs ont peur de bloquer le GoogleBot et désactivent donc les protections en sa présence... :?
 
WRInaute occasionnel
c'est tout simplement quelqun qui s'amuse a regarder les pages en cloacking...
 
WRInaute passionné
achtungbaby a dit:
Comment on fait pour empêcher les aspirateurs de site ?

Car on m'a déjà "aspiré plusieurs fois" déjà...

Les scripts de protection existant ce base en général sur la "vitesse" de consultation des pages, un aspirateur de site étant facilement reconnaissable à sa très grande "gourmandise". Ensuite, l'ip est temporairement banni.
 
WRInaute passionné
Mais attention : certains robots (dont celui de dir.com il me semble) peuvent consulter plusieurs milliers de pages par jour... et risquent d'être bloqués si le système est trop restrictif.
 
WRInaute passionné
Pas les robots bien codés.
Justement, si tu regarde tes logs tu verra que les robots respecte le site qu'il crawle, en ne demandant qu'une page toute les 45 secondes environ.
 
WRInaute passionné
Il y a au moins un robot qui fait plusieurs milliers de page par jour sur mon site... s'il fait une page toutes les 10 secondes, ça passe encore.

Généralement, je bloque à partir de 2 pages par secondes, sur un minimum de 100 pages.
 
WRInaute discret
Oui tout simplement qq qui verifie que tu ne fais pas du cloaking ...
Tu choisis le user agent que tu veux et tu te fais passer pour lui .. d'ou utilité de filtrer via ip ;)
 
WRInaute impliqué
ben moi quand j'utilises firefox je suis toujours avec le javascript désactivé et googlebot comme agent , au début j'avais oublié de remodifier mes paramètres mais maintenant je le laisse exprès.
on voit pas mal de trucs bizarres :twisted:
 
WRInaute occasionnel
BadProcESs a dit:
Pas les robots bien codés.
Justement, si tu regarde tes logs tu verra que les robots respecte le site qu'il crawle, en ne demandant qu'une page toute les 45 secondes environ.
En fait je pense que ce paramètre est très variable. Je vois très souvent entre 5 et 10 pages demandées dans la meme seconde par le vrai Googlebot. En fait je pense que le temps de remontée de page à beaucoup d'importance pour Googlebot : si ton serveur sert les pages lentement, Googlebot ralenti, et inversement.

Sinon pour en revenir aux faux Googlebot, la seule solution à peu près fiable pour les détecter reste l'IP, notamment pour ceux qui veulent exclure certains "utilisateurs" des restrictions imposées par un script anti-aspiration...

Fred
 
WRInaute discret
Bonjour,

Vous allez me trouver un peu « tombé de la dernière pluie »,
mais pour moi, aspirer un site, c’était pouvoir le consulter hors connexion chez soi, donc rien de dramatique. J’ai même des personnes qui m’ont-dit avoir imprimé mon site ( deux ramettes de papier couché, car imprimé au format paysage pour ne rien perdre…) c’est encore mieux qu’un petit mot dans un livre d’or.
Mais à voir vos messages, aspirer un site ne doit pas servir qu’à ça ! Alors, ils en font quoi des pages aspirées ?

TC
 
WRInaute occasionnel
En fait tout dépend de ce que tu appelles "aspiration", et la vitesse de celle ci. Avec les lignes d'aujourd'hui, tu peux rapidement atteindre des niveaux gênants pour les serveurs, particulièrement pour ceux qui disposent d'un grand nombre de pages sur un mutualisé (bande passante et CPU consommés)

Ensuite selon le type de site : je ne vois pas l'intérêt de certaines personnes qui m'aspirent plusieurs milliers de pages par jour, alors que les prix auront changé le lendemain, et donc l'information sera obsolète :) Perso je laisse faire pour le moment, mais je vais mettre en place quelques bridages dans le futur.

Une utilisation concrète, est l'utilisation par les concurrents à l'aide d'outils de veille : ils peuvent par exemple voir tous les nouveaux liens créés depuis leur dernière aspiration, donc potentiellement trouver les nouveaux produits, etc.. :idea:

Fred
 
WRInaute passionné
[apparté sur l'aspiration]
Sur certains sites (un site contenant beaucoup d'images par exemple), le gars va télécharger une très grosse quantité d'images (quelques centaines de Mo, voir plus) alors qu'au final 10% l'interesseront. Et ce gaspillage aura pour principal conséquence la surcharge inutile du serveur.... voir dans mon cas un "deni de service" pour les autres visiteurs...

En gros, l'aspiration du site est tolérée, mais à un rythme décent : la gars avec sa ligne 5.5Mbits (freebox), il va vite me foutre mon serveur en rade s'il lance une aspiration "agressive". D'autant plus qu'il sera loin d'être le seul...

Le problème reste entier pour les connexions bas débit, qui se servent de l'aspiration pour limiter les couts... Dans ce cas j'ai opté pour la solution FTP : d'ici peu je fournirait un Zip contenant les images de toute une galerie. Téléchargeable uniquement par FTP, avec débit un nombre de connexions par IP et total limité.

[/apparté sur l'aspiration]

voilou
 
WRInaute accro
iconso a dit:
je ne vois pas l'intérêt de certaines personnes qui m'aspirent plusieurs milliers de pages par jour

aspirer tes emails, aspirer tes fiches, aspirer tes données, aspirer tes images..

on continue ? :lol:
 
WRInaute occasionnel
mahefarivony a dit:
on continue ? :lol:
Ah ouais c'est clair il était sous-entendu : "pour une utilisation offline à la régulière" :lol:
Le pire avec les aspirateurs, c'est que les gens ne savent pas forcément comment les utiliser et oublient de paramétrer un niveau de récupération max, etc... Du coup ca ressemble à du full crawl, mais la personne utilisera sans doute quelques pages sur les milliers téléchargées.

Fred
 
Discussions similaires
Haut