Crawl Google des pages géolocalisées dynamiquement

Partagez cette page :

Google sait crawler et indexer les pages dont le contenu s'adapte en fonction du pays estimé de l'internaute et de ses préférences de langue (même si ce n'est pas la configuration optimale)

Contenus qui s'adaptent à la géolocalisation et la langue

Parfois, il arrive que le contenu d'une page change selon la position géographique estimée de l'internaute, ou sa préférence de langue. Par exemple, de façon dynamique (automatique), sur une même URL :

le contenu est toujours en français mais diffère selon que l'internaute est considéré comme venant de France, de Belgique, de Suisse ou d'autres pays francophones

la langue du contenu diffère selon la région de l'internaute, ou sa configuration de la langue, ou une combinaison des deux
le contenu diffère selon l'entête HTTP Accept-Language
l'accès au site est refusé pour certaines combinaisons de régions et de langues

En gros, il y a plusieurs contenus possibles pour la même URL (c'est l'opposé de la notion de contenu dupliqué).

Le crawl Google qui s'adapte à la géolocalisation et la langue

Depuis le 28/01/2015, Google est capable de gérer cela, comme je l'explique dans le reste de l'article. Mais il est toujours largement recommandé de ne pas choisir cette solution ! Il est bien plus efficace d'avoir des URL différentes pour les différentes combinaisons de langues et de régions, incluant des annotations de langue. Ce n'est pas seulement moi qui le dit, Google également :

Nous continuons d'encourager et de recommander l'utilisation de configurations d'URL distinctes et d'annotations "rel=alternate hreflang" en présence de différents paramètres régionaux.

En d'autres termes, vous ne devriez pas avoir besoin de tout ce qui suit !

D'habitude, Googlebot crawle depuis une adresse IP géolocalisée aux Etats-Unis, sans envoyer d'entête Accept-Language.

Voici les 2 nouveautés de janvier 2015 :

Googlebot existe désormais sur des adresses IP hors des USA. Ne soyez pas étonnés si vous voyez un user-agent Googlebot avec une nouvelle IP, ça peut être un crawler authentique de Google (faites une résolution DNS inverse pour vérifier, comme indiqué ci-dessous). Google appelle ce mécanisme l'exploration géodistribuée (geo-distributed crawling).

Googlebot crawle parfois une page pour une langue en particulier. Dans ce cas, il envoie un champ Accept-Language particulier dans l'entête HTTP quand il crawle votre site.

Concrètement, Google va tester progressivement ce système de crawl et d'indexation en fonction des paramètres régionaux. Il n'y aura donc pas forcément un Googlebot pour chaque pays ou chaque langue.

A noter que le niveau de précision de la localisation est le pays ; en particulier, il ne sait pas s'adapter aux régions, départements ou villes.

Dernier détail : vous ne pouvez pas indiquer à Google si vous souhaitez (ou refusez) qu'il crawle votre site en suivant des paramètres de langues et de pays. L'algorithme de Google tente de repérer si dans votre cas ce serait bénéfique ou pas : ça se fait tout seul.

Comment vérifier qu'un crawler est vraiment Googlebot ?

Il faut faire une résolution DNS inverse. Par exemple, si vous voyez un crawler avec le nom d'agent Googlebot explorer votre site avec l'adresse IP 66.249.66.1, lancez une commande host pour connaître le nom de domaine correspondant :

host 66.249.66.1

La réponse fournie est du type :

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

Tout d'abord, vous constatez que cette adresse IP correspond bien au nom de domaine googlebot.com. Terminez en faisant une résolution DNS inverse pour savoir à quelle adresse IP correspond ce domaine :

host crawl-66-249-66-1.googlebot.com

La réponse fournie est du type :

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Vous retombez bien sur l'adresse IP initiale, ce qui indique qu'il s'agit bien d'un robot Googlebot authentique.

Besoin d'aide ?

Si vous avez besoin d'aide, posez votre question dans le forum SEO international de WebRankInfo.

Consultez également ces ressources :

les annotations de langue : aide de Google
explorer un site avec Googlebot en tenant compte des paramètres régionaux : aide de Google
crawl et indexation des pages adaptables aux paramètres régionaux : blog de Google

Partagez cette page :

Cet article vous a-t-il plu ?

Note : 3.0 (2 votes)

Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

3 commentaires

Stebal59 19 février 2015

Bonjour,

De notre côté, nous avons et observons de grandes difficultés à être référencé sur le google.co.uk. Notre portail (sur le *.com), affiche les contenus en français. Nous disposons pour les autres pays de sous-domaines : en.nomdusite.com, de.nomdusite.com, it.nomdusite.com, es.nomdusite.com.

Les rel=alternate hreflang et en-tête html ont bien été faites.

- ON se demande si l'adresse IP de notre serveur qui est unique ne poserait pas un soucis
- Faudrait-il replacer le *.com en anglais par défaut et créer un fr.nomdedomaine.com

Merci pour vos réponses et bonne continuation à Webrankinfo

Stéphane

Répondre

Olivier Duffez 20 février 2015

@ Stebal59 : ce commentaire ne correspond pas au cas de l'article, donc il serait préférable de poser la question sur le forum (référencement multilingue). Réponse courte : je déconseille d'inverser (utiliser l'ancien site en français pour y mettre la version anglaise)

Stéphane 05 février 2015

Merci pour cette info. Ce n'est toujours pas recommandé d'adapter le contenu des pages selon la langue ou le lieu du visiteur, mais peut-être qu'à l'avenir, cela ne sera plus un facteur bloquant. On se demandait s'il Googlebot était perdu lorsqu'il arrivait sur ce type de page. On sait maintenant que non.