Nouvelle version Googlebot

WRInaute occasionnel
En regardant les logs, on peut identifier 2 bots différents : le classique et un nouveau simulant un browser récent. Ce n'est pas forcément très nouveau, mais ce qui est à la pointe c'est que ce second bot est désormais compatible gzip. Extrait des logs avec les 2 bots :

Code:
crawl-66-249-64-169.googlebot.com - - [15/Oct/2004:23:27:34 +0200] "GET /dupuis/ HTTP/1.0" 200 9804 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
crawl-66-249-64-4.googlebot.com - - [15/Oct/2004:23:27:35 +0200] "GET /broughton/ HTTP/1.0" 200 9760 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
crawl-66-249-66-203.googlebot.com - - [15/Oct/2004:23:48:13 +0200] "GET /zimbabwe.php?image2=1 HTTP/1.1" 200 6945 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" mod_gzip: DECHUNK:OK In:18257 Out:6945:62pct.
crawl-66-249-66-203.googlebot.com - - [15/Oct/2004:23:48:16 +0200] "GET /linjinan/?pic=-12&l=1 HTTP/1.1" 200 3609 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" mod_gzip: DECHUNK:OK In:12401 Out:3609:71pct.

Ils font des progrès chez Google... Reste plus qu'à mettre le header de langue et ça me plaira bien.
 
WRInaute discret
crawl-66-249-64-169.googlebot.com - - [15/Oct/2004:23:27:34 +0200] "GET /dupuis/ HTTP/1.0" 200 9804 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
crawl-66-249-66-203.googlebot.com - - [15/Oct/2004:23:48:16 +0200] "GET /linjinan/?pic=-12&l=1 HTTP/1.1" 200 3609 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" mod_gzip: DECHUNK:OK In:12401 Out:3609:71pct.

Je pense qu il parlait de la compression de page en gzip
 
WRInaute occasionnel
En clair le nouveau bot simule un navigateur en poussant le vice jusqu'à être compatible avec la compression disponible dans le protocole http 1.1
2 impacts :
- si le nouveau bot se généralise, ça aura un impact positif sur notre bande passante car le volume transféré sera moindre pour un même nombre de pages crawlé (et accessoirement Google aura besoin d'une bande passante plus faible pour crawler le web)
- si des pages font du cloaking, Google a le moyen de l'identifier car son bot se rapproche vraiment des caractéristiques d'un navigateur normal (le cloaking ne pourra plus se faire par le user agent mais juste par l'identification de l'ip)
 
Olivier Duffez (admin)
Membre du personnel
Digit, vois-tu un rapport entre la détection du cloaking et la gestion du zip ? Si je te suis c'est plutôt que Google développe un bot qui ressemble de plus en plus à un navigateur, non ?

Et toujours pas de Googlebot qui lise des CSS ?
 
WRInaute occasionnel
Exactement Olivier, le bot se rapproche de plus en plus du navigateur :
- Gestion aboutie du protocole (compression http1.1)
- identification de certains éléments javascript
- User Agent Mozilla en version avancée (donc à priori conforme aux dernières normes html, xhtml...)

Mais peut-être que Google désire aller au-delà du navigateur en émulant l'utilisateur, ce qui est également bien aboutit
- parcours des sites et navigation de proche en proche
- analyse des documents (autres que pages html)
- estimation de l'importance d'une page
- identification de pages semblables

Le super-bot serait donc un super-utilisateur équipé d'un super-navigateur
 
Discussions similaires
Haut