GoogleBot : le vrai et les faux

jeanluc · 3 Août 2004

Après les faux Rubens, les faux Picasso, voilà les faux GoogleBot :twisted:

Mon site a été visité par quelqu'un qui s'identifie avec Googlebot/2.1 (+https://www.google.com/bot.html), mais qui n'est, en fait, qu'un browser trafiqué! L'adresse IP du visiteur ne permet aucun doute la-dessus.

Avis donc à ceux qui disent qu'ils ont eu récemment des visites inhabituelles des Googlebot...

Jean-Luc

Bool · 3 Août 2004

Certains utilisent cette méthode pour aspirer les sites : beaucoup de webmasteurs ont peur de bloquer le GoogleBot et désactivent donc les protections en sa présence... :?

achtungbaby · 3 Août 2004

Comment on fait pour empêcher les aspirateurs de site ?

Car on m'a déjà "aspiré plusieurs fois" déjà...

Tex · 3 Août 2004

c'est tout simplement quelqun qui s'amuse a regarder les pages en cloacking...

Le_Phasme · 3 Août 2004

Tex a dit:
c'est tout simplement quelqun qui s'amuse a regarder les pages en cloacking...

Je pense aussi

BadProcESs · 3 Août 2004

achtungbaby a dit:
Comment on fait pour empêcher les aspirateurs de site ?

Car on m'a déjà "aspiré plusieurs fois" déjà...

Les scripts de protection existant ce base en général sur la "vitesse" de consultation des pages, un aspirateur de site étant facilement reconnaissable à sa très grande "gourmandise". Ensuite, l'ip est temporairement banni.

Bool · 3 Août 2004

Mais attention : certains robots (dont celui de dir.com il me semble) peuvent consulter plusieurs milliers de pages par jour... et risquent d'être bloqués si le système est trop restrictif.

BadProcESs · 3 Août 2004

Pas les robots bien codés.
Justement, si tu regarde tes logs tu verra que les robots respecte le site qu'il crawle, en ne demandant qu'une page toute les 45 secondes environ.

Bool · 3 Août 2004

Il y a au moins un robot qui fait plusieurs milliers de page par jour sur mon site... s'il fait une page toutes les 10 secondes, ça passe encore.

Généralement, je bloque à partir de 2 pages par secondes, sur un minimum de 100 pages.

Earth Brian · 3 Août 2004

Oui tout simplement qq qui verifie que tu ne fais pas du cloaking ...
Tu choisis le user agent que tu veux et tu te fais passer pour lui .. d'ou utilité de filtrer via ip

Le_Phasme · 3 Août 2004

Si qqn veut essayer :
http://www.wannabrowser.com/

Gralon · 3 Août 2004

ben moi quand j'utilises firefox je suis toujours avec le javascript désactivé et googlebot comme agent , au début j'avais oublié de remodifier mes paramètres mais maintenant je le laisse exprès.
on voit pas mal de trucs bizarres :twisted:

iconso · 3 Août 2004

BadProcESs a dit:
Pas les robots bien codés.
Justement, si tu regarde tes logs tu verra que les robots respecte le site qu'il crawle, en ne demandant qu'une page toute les 45 secondes environ.

En fait je pense que ce paramètre est très variable. Je vois très souvent entre 5 et 10 pages demandées dans la meme seconde par le vrai Googlebot. En fait je pense que le temps de remontée de page à beaucoup d'importance pour Googlebot : si ton serveur sert les pages lentement, Googlebot ralenti, et inversement.

Sinon pour en revenir aux faux Googlebot, la seule solution à peu près fiable pour les détecter reste l'IP, notamment pour ceux qui veulent exclure certains "utilisateurs" des restrictions imposées par un script anti-aspiration...

Fred

microbe · 3 Août 2004

Bonjour,

Vous allez me trouver un peu « tombé de la dernière pluie »,
mais pour moi, aspirer un site, c’était pouvoir le consulter hors connexion chez soi, donc rien de dramatique. J’ai même des personnes qui m’ont-dit avoir imprimé mon site ( deux ramettes de papier couché, car imprimé au format paysage pour ne rien perdre…) c’est encore mieux qu’un petit mot dans un livre d’or.
Mais à voir vos messages, aspirer un site ne doit pas servir qu’à ça ! Alors, ils en font quoi des pages aspirées ?

TC

mahefarivony · 3 Août 2004

quel interet pourrait avoir une société commerciale d'aspirer les sites webs ?

iconso · 3 Août 2004

En fait tout dépend de ce que tu appelles "aspiration", et la vitesse de celle ci. Avec les lignes d'aujourd'hui, tu peux rapidement atteindre des niveaux gênants pour les serveurs, particulièrement pour ceux qui disposent d'un grand nombre de pages sur un mutualisé (bande passante et CPU consommés)

Ensuite selon le type de site : je ne vois pas l'intérêt de certaines personnes qui m'aspirent plusieurs milliers de pages par jour, alors que les prix auront changé le lendemain, et donc l'information sera obsolète

Perso je laisse faire pour le moment, mais je vais mettre en place quelques bridages dans le futur.

Une utilisation concrète, est l'utilisation par les concurrents à l'aide d'outils de veille : ils peuvent par exemple voir tous les nouveaux liens créés depuis leur dernière aspiration, donc potentiellement trouver les nouveaux produits, etc.. :idea:

Fred

Bool · 3 Août 2004

[apparté sur l'aspiration]
Sur certains sites (un site contenant beaucoup d'images par exemple), le gars va télécharger une très grosse quantité d'images (quelques centaines de Mo, voir plus) alors qu'au final 10% l'interesseront. Et ce gaspillage aura pour principal conséquence la surcharge inutile du serveur.... voir dans mon cas un "deni de service" pour les autres visiteurs...

En gros, l'aspiration du site est tolérée, mais à un rythme décent : la gars avec sa ligne 5.5Mbits (freebox), il va vite me foutre mon serveur en rade s'il lance une aspiration "agressive". D'autant plus qu'il sera loin d'être le seul...

Le problème reste entier pour les connexions bas débit, qui se servent de l'aspiration pour limiter les couts... Dans ce cas j'ai opté pour la solution FTP : d'ici peu je fournirait un Zip contenant les images de toute une galerie. Téléchargeable uniquement par FTP, avec débit un nombre de connexions par IP et total limité.

[/apparté sur l'aspiration]

voilou

Bool · 3 Août 2004

arf iconso.... plus rapide que moi

mahefarivony · 3 Août 2004

iconso a dit:
je ne vois pas l'intérêt de certaines personnes qui m'aspirent plusieurs milliers de pages par jour

aspirer tes emails, aspirer tes fiches, aspirer tes données, aspirer tes images..

on continue ? :lol:

iconso · 3 Août 2004

mahefarivony a dit:
on continue ? :lol:

Ah ouais c'est clair il était sous-entendu : "pour une utilisation offline à la régulière" :lol:
Le pire avec les aspirateurs, c'est que les gens ne savent pas forcément comment les utiliser et oublient de paramétrer un niveau de récupération max, etc... Du coup ca ressemble à du full crawl, mais la personne utilisera sans doute quelques pages sur les milliers téléchargées.

Fred