Nouvelle version Googlebot

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Digit, 16 Octobre 2004.

  1. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    441
    J'aime reçus:
    1
    En regardant les logs, on peut identifier 2 bots différents : le classique et un nouveau simulant un browser récent. Ce n'est pas forcément très nouveau, mais ce qui est à la pointe c'est que ce second bot est désormais compatible gzip. Extrait des logs avec les 2 bots :

    Code:
    crawl-66-249-64-169.googlebot.com - - [15/Oct/2004:23:27:34 +0200] "GET /dupuis/ HTTP/1.0" 200 9804 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
    crawl-66-249-64-4.googlebot.com - - [15/Oct/2004:23:27:35 +0200] "GET /broughton/ HTTP/1.0" 200 9760 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
    crawl-66-249-66-203.googlebot.com - - [15/Oct/2004:23:48:13 +0200] "GET /zimbabwe.php?image2=1 HTTP/1.1" 200 6945 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" mod_gzip: DECHUNK:OK In:18257 Out:6945:62pct.
    crawl-66-249-66-203.googlebot.com - - [15/Oct/2004:23:48:16 +0200] "GET /linjinan/?pic=-12&l=1 HTTP/1.1" 200 3609 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" mod_gzip: DECHUNK:OK In:12401 Out:3609:71pct.
    
    Ils font des progrès chez Google... Reste plus qu'à mettre le header de langue et ça me plaira bien.
     
  2. turulillo
    turulillo WRInaute impliqué
    Inscrit:
    27 Juin 2003
    Messages:
    526
    J'aime reçus:
    0
    Je ne comprends pas très bien, tu peux être plus explicite ?
     
  3. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    crawl-66-249-64-169.googlebot.com - - [15/Oct/2004:23:27:34 +0200] "GET /dupuis/ HTTP/1.0" 200 9804 "-" "Googlebot/2.1 (+https://www.google.com/bot.html)" mod_gzip: DECLINED:NO_ACCEPT_ENCODING In:0 Out:0:0pct.
    crawl-66-249-66-203.googlebot.com - - [15/Oct/2004:23:48:16 +0200] "GET /linjinan/?pic=-12&l=1 HTTP/1.1" 200 3609 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)" mod_gzip: DECHUNK:OK In:12401 Out:3609:71pct.

    Je pense qu il parlait de la compression de page en gzip
     
  4. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    441
    J'aime reçus:
    1
    En clair le nouveau bot simule un navigateur en poussant le vice jusqu'à être compatible avec la compression disponible dans le protocole http 1.1
    2 impacts :
    - si le nouveau bot se généralise, ça aura un impact positif sur notre bande passante car le volume transféré sera moindre pour un même nombre de pages crawlé (et accessoirement Google aura besoin d'une bande passante plus faible pour crawler le web)
    - si des pages font du cloaking, Google a le moyen de l'identifier car son bot se rapproche vraiment des caractéristiques d'un navigateur normal (le cloaking ne pourra plus se faire par le user agent mais juste par l'identification de l'ip)
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 422
    J'aime reçus:
    403
    Digit, vois-tu un rapport entre la détection du cloaking et la gestion du zip ? Si je te suis c'est plutôt que Google développe un bot qui ressemble de plus en plus à un navigateur, non ?

    Et toujours pas de Googlebot qui lise des CSS ?
     
  6. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    ça, va valoir encore attendre...

    D autre bots le font, google va forcement suivre, mais quand, mystere et boule de gomme :?:
     
  7. Digit
    Digit WRInaute occasionnel
    Inscrit:
    18 Avril 2003
    Messages:
    441
    J'aime reçus:
    1
    Exactement Olivier, le bot se rapproche de plus en plus du navigateur :
    - Gestion aboutie du protocole (compression http1.1)
    - identification de certains éléments javascript
    - User Agent Mozilla en version avancée (donc à priori conforme aux dernières normes html, xhtml...)

    Mais peut-être que Google désire aller au-delà du navigateur en émulant l'utilisateur, ce qui est également bien aboutit
    - parcours des sites et navigation de proche en proche
    - analyse des documents (autres que pages html)
    - estimation de l'importance d'une page
    - identification de pages semblables

    Le super-bot serait donc un super-utilisateur équipé d'un super-navigateur
     
  8. JeunZ
    JeunZ WRInaute accro
    Inscrit:
    18 Février 2004
    Messages:
    3 971
    J'aime reçus:
    0
    Et il veut pas s'informer à notre place? ^^


    Le rss ça serait bien. :)
     
Chargement...
Similar Threads - Nouvelle Googlebot Forum Date
Astuce Otage financier: OVH et autres, une nouvelle tendance? Le café de WebRankInfo 6 Mars 2020
Nouvelle méthode SEO méthode américaine Référencement Google 16 Octobre 2019
Nouvelle présentatation des résultats du moteur de recherche google Référencement Google 5 Octobre 2019
Choix nom de domaine pour site secondaire activité Australie (.com.au) et Nouvelle Zélande (.co.nz) Référencement international (langues, pays) 23 Septembre 2019
Nouvelles directives de la CNIL (cookies et traceurs) Droit du web (juridique, fiscalité...) 2 Septembre 2019
En combien de temps Google indexe une nouvelle page ? Débuter en référencement 12 Avril 2019
Search Console Titres et descriptions en double dans la nouvelle search console Google : l'entreprise, les sites web, les services 10 Avril 2019
Rediriger ancienne page vers nouvelle page (plusieurs centaines) URL Rewriting et .htaccess 8 Mars 2019
Comment supprimer 1 sitemap avec nouvelle GSC ? Crawl et indexation Google, sitemaps 21 Février 2019
Une sous-catégorie nouvelle qui n'apporte aucune visite Problèmes de référencement spécifiques à vos sites 15 Février 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice