🧟‍♂️️ Vérifiez vos pages zombies SEO sur votre site !!! 🧟‍♀️️

Elles plombent votre référencement et ne vous rapportent rien...

Je le détaille dans mon tuto Pages Zombies

Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Google sait crawler des pages dont le contenu s’adapte selon la langue ou le lieu du visiteur

Google sait désormais crawler et indexer des pages dont le contenu s’adapte selon la langue ou le lieu du visiteur (la « locale »). Attention, ce n’est pas pour autant la meilleure conception du site pour le référencement international. Explications…

Googlebot crawl paramètres régionaux

Google sait crawler et indexer les pages dont le contenu s’adapte en fonction du pays estimé de l’internaute et de ses préférences de langue (même si ce n’est pas la configuration optimale)

Contenus qui s’adaptent à la géolocalisation et la langue

Parfois, il arrive que le contenu d’une page change selon la position géographique estimée de l’internaute, ou sa préférence de langue. Par exemple, de façon dynamique (automatique), sur une même URL :

  • le contenu est toujours en français mais diffère selon que l’internaute est considéré comme venant de France, de Belgique, de Suisse ou d’autres pays francophones
  • la langue du contenu diffère selon la région de l’internaute, ou sa configuration de la langue, ou une combinaison des deux
  • le contenu diffère selon l’entête HTTP Accept-Language
  • l’accès au site est refusé pour certaines combinaisons de régions et de langues

En gros, il y a plusieurs contenus possibles pour la même URL (c’est l’opposé de la notion de contenu dupliqué).

Le crawl Google qui s’adapte à la géolocalisation et la langue

Depuis le 28/01/2015, Google est capable de gérer cela, comme je l’explique dans le reste de l’article. Mais il est toujours largement recommandé de ne pas choisir cette solution ! Il est bien plus efficace d’avoir des URL différentes pour les différentes combinaisons de langues et de régions, incluant des annotations de langue. Ce n’est pas seulement moi qui le dit, Google également :

Nous continuons d’encourager et de recommander l’utilisation de configurations d’URL distinctes et d’annotations « rel=alternate hreflang » en présence de différents paramètres régionaux.

En d’autres termes, vous ne devriez pas avoir besoin de tout ce qui suit !

D’habitude, Googlebot crawle depuis une adresse IP géolocalisée aux Etats-Unis, sans envoyer d’entête Accept-Language.

Voici les 2 nouveautés de janvier 2015 :

  • Googlebot existe désormais sur des adresses IP hors des USA. Ne soyez pas étonnés si vous voyez un user-agent Googlebot avec une nouvelle IP, ça peut être un crawler authentique de Google (faites une résolution DNS inverse pour vérifier, comme indiqué ci-dessous). Google appelle ce mécanisme l’exploration géodistribuée (geo-distributed crawling).
  • Googlebot crawle parfois une page pour une langue en particulier. Dans ce cas, il envoie un champ Accept-Language particulier dans l’entête HTTP quand il crawle votre site.

Concrètement, Google va tester progressivement ce système de crawl et d’indexation en fonction des paramètres régionaux. Il n’y aura donc pas forcément un Googlebot pour chaque pays ou chaque langue.

A noter que le niveau de précision de la localisation est le pays ; en particulier, il ne sait pas s’adapter aux régions, départements ou villes.

Dernier détail : vous ne pouvez pas indiquer à Google si vous souhaitez (ou refusez) qu’il crawle votre site en suivant des paramètres de langues et de pays. L’algorithme de Google tente de repérer si dans votre cas ce serait bénéfique ou pas : ça se fait tout seul.

Comment vérifier qu’un crawler est vraiment Googlebot ?

Il faut faire une résolution DNS inverse. Par exemple, si vous voyez un crawler avec le nom d’agent Googlebot explorer votre site avec l’adresse IP 66.249.66.1, lancez une commande host pour connaître le nom de domaine correspondant :

host 66.249.66.1

La réponse fournie est du type :

1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

Tout d’abord, vous constatez que cette adresse IP correspond bien au nom de domaine googlebot.com. Terminez en faisant une résolution DNS inverse pour savoir à quelle adresse IP correspond ce domaine :

host crawl-66-249-66-1.googlebot.com

La réponse fournie est du type :

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Vous retombez bien sur l’adresse IP initiale, ce qui indique qu’il s’agit bien d’un robot Googlebot authentique.

Besoin d’aide ?

Si vous avez besoin d’aide, posez votre question dans le forum SEO international de WebRankInfo.

Consultez également ces ressources :

  • les annotations de langue : aide de Google
  • explorer un site avec Googlebot en tenant compte des paramètres régionaux : aide de Google
  • crawl et indexation des pages adaptables aux paramètres régionaux : blog de Google

Cet article vous a-t-il plu ?

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

3 commentaires

Stéphane

Merci pour cette info. Ce n’est toujours pas recommandé d’adapter le contenu des pages selon la langue ou le lieu du visiteur, mais peut-être qu’à l’avenir, cela ne sera plus un facteur bloquant. On se demandait s’il Googlebot était perdu lorsqu’il arrivait sur ce type de page. On sait maintenant que non.

Répondre
Stebal59

Bonjour,

De notre côté, nous avons et observons de grandes difficultés à être référencé sur le google.co.uk. Notre portail (sur le *.com), affiche les contenus en français. Nous disposons pour les autres pays de sous-domaines : en.nomdusite.com, de.nomdusite.com, it.nomdusite.com, es.nomdusite.com.

Les rel=alternate hreflang et en-tête html ont bien été faites.

– ON se demande si l’adresse IP de notre serveur qui est unique ne poserait pas un soucis
– Faudrait-il replacer le *.com en anglais par défaut et créer un fr.nomdedomaine.com

Merci pour vos réponses et bonne continuation à Webrankinfo

Stéphane

Répondre
Olivier Duffez

@ Stebal59 : ce commentaire ne correspond pas au cas de l’article, donc il serait préférable de poser la question sur le forum (référencement multilingue). Réponse courte : je déconseille d’inverser (utiliser l’ancien site en français pour y mettre la version anglaise)

Répondre