Comment configurer les paramètres d'URL dans Google Webmaster Tools

Olivier Duffez (admin)
Membre du personnel
⚠️ Ce rapport a été supprimé de Google Search Console en avril 2022

Sur les sites dynamiques, on trouve parfois/souvent des paramètres passés dans les URL (derrière le signe ?). Ils peuvent servir à configurer le contenu à afficher ou à gérer des options pour liées à l'internaute. Mais ils peuvent générer des contenus dupliqués (en donnant accès au même contenu via des URL différentes). Lisez ce tutoriel pour apprendre comment paramétrer cet outil complet intégré dans Google Search Console.

Remarque : la 1ère version de ce tutoriel date de septembre 2009, quand Google a sorti cet outil pour la première fois. A l'époque, il ne permettait que d'indiquer pour chaque paramètre si Google devait en tenir compte ou l'ignorer. Désormais les options de configuration sont bien plus nombreuses, ce qui explique que j'ai réécrit entièrement ce dossier.

Avant de commencer, si vous n'êtes pas à l'aise avec la notion de duplicate content (DC), lisez mon tutoriel sur les contenus dupliqués (incluant les solutions pour améliorer votre référencement naturel).

Egalement, sachez que Google Search Console (GSC) est le nouveau nom de Google Webmaster Tools (GWT) depuis 2015.

Enfin, même si vous devriez trouver la plupart des réponses à vos questions, je propose en fin d'article des solutions pour vous aider, notamment un audit de votre compte GSC.

Quels sites sont concernés ?​

Certains sites dynamiques​

Si vous avez un site dynamique, il est fort probable que cela vous concerne, sauf si vous avez déjà pris les mesures nécessaires. Si dans les URL de vos pages il y a parfois des variables (= paramètres) d'un des types suivants, alors vous êtes concerné :

  • paramètres de pagination
  • paramètres de gestion du tri (nom du critère de tri et valeur, par exemple ascendant ou descendant)
  • paramètres de filtrage (pour restreindre un listing en fonction de certaines valeurs)
  • paramètres de traduction
Si les paramètres ne modifient pas le contenu de la page (par exemple des identifiants de session ou des paramètres optionnels), vous devez malgré tout les gérer, comme je l'explique un peu plus bas.

A voir aussi : tutoriel sur la pagination

Si vous utilisez du tracking​

Imaginons que vous ayez configuré votre flux RSS pour que les URL qui y figurent ne pointent pas directement vers vos articles mais incluent un paramètre de tracking, vous permettant de mesurer l'impact de votre flux RSS sur votre site web. AT Internet (XiTi) est par exemple connu pour son paramètre xtor. et Google Analytics pour ses paramètres commençant par utm_ (par exemple utm_source, utm_medium, utm_campaign).

Ce type de paramètre crée du contenu dupliqué puisque votre contenu est accessible à plusieurs URL (avec ou sans ce paramètre, ou selon ses valeurs).

Google vous permet de lister ces variables dans votre compte Google Search Console. L'idée est que Google pourra fusionner les URL concernées et réduire les problèmes de contenus dupliqués pour votre site.

Remarque : la notion de tracking est essentielle pour le webmarketing ; si vous ne savez pas bien ce que cela signifie, je vous conseille de lire mon tutoriel sur le tracking des URL.

Si vous utilisez la réécriture d'URL​

Si vous avez mis en place l'URL rewriting, vous ne pourrez pas configurer les paramètres dans GSC comme décrit ci-après. Mais cela ne veut pas dire que vous n'avez pas potentiellement des problèmes de contenus dupliqués ! Si ce n'est pas clair pour vous, voyez ici comment obtenir de l'aide.

Mise en place pas à pas...​

Allez dans GSC (lisez comment créer un compte Google Search Console si besoin) dans la rubrique Exploration > Paramètres d'URL.

Tableau récapitulatif des paramètres d'URL​

Google affiche un tableau listant tous les paramètres déjà détectés automatiquement ou configurés manuellement par une des personnes ayant accès à votre compte GSC. Voici à quoi il peut ressembler :

Tableau parametres URL Google Search Console
Exemple de tableau des paramètres d'URL dans Google Search Console
Pour chaque paramètre, Google indique :

  • paramètre : nom de la variable présente dans l'URL
  • URL surveillées : nombre d'URL incluant ce paramètre dont Google connait l'existence
  • Dernière configuration : date de la dernière modification de la configuration
  • Effet : indique si ce paramètre a un effet sur le contenu de la page ou pas
  • Exploration : indique ce que Google va faire et quel genre d'URL son robot va crawler ("explorer")
Pour chaque paramètre, vous pouvez modifier sa configuration ou la réinitialiser (Google déterminera à nouveau de façon automatique quelle configuration appliquer au paramètre concerné).

Vous remarquez que vous pouvez télécharger la configuration de tous les paramètres (format CSV) ce qui peut être pratique pour la traiter autrement ou la transmettre à votre référenceur / prestataire / collègue.

Configurer un paramètre sans effet sur le contenu​

Si vous trouvez dans ce tableau des paramètres qui n'ont aucun effet sur le contenu (ils peuvent avoir n'importe quelle valeur, le contenu de la page restera inchangé), alors configurez-les comme tel :

Tableau parametres URL Google Webmasters Tool
Exemple de paramètre d'URL sans impact sur le contenu de la page
En indiquant à Google que ce paramètre n'affecte pas le contenu de la page, Google se débrouillera pour ne crawler qu'une seule URL (je suppose l'URL sans ce paramètre, à vérifier).

En théorie ceci permet de résoudre le problème des sites avec des identifiants de session dans les URL qui freinent considérablement le crawl (et donc l'indexation).

Configurer un paramètre avec effet sur le contenu​

Si au contraire vous trouvez dans ce tableau des paramètres qui ont un effet sur le contenu (le contenu de la page diffère selon les valeurs du paramètres), alors il faut les configurer au cas par cas. Une fois que vous avez indiqué que le contenu change en fonction du paramètre, vous devez indiquer comment ce paramètre affecte le contenu :

  • Tri : Cette option permet de trier le contenu comme indiqué dans le paramètre. Par exemple, vous pouvez afficher des fiches de produits triées par nom, marque ou prix.
  • Restriction : Affiche un sous-ensemble de contenu spécifié par le paramètre (par exemple, des filtres pour afficher seulement les robes en taille M).
  • Spécification : Spécifie de quoi traite la page (par exemple, le sujet, l'audience, le numéro de l'article, etc.).
  • Traduction : Affiche le contenu dans la langue (par exemple, anglais ou klingon) spécifiée par le paramètre.
  • Pagination : Affiche le contenu d'une page de type listing, pour un numéro de page donné.
  • Autre : pour les autres cas.
Pour ma part j'ai du mal à voir la différence entre "Restriction" et "Spécification", si vous la voyez n'hésitez pas à l'indiquer dans les commentaires.

Une fois que vous avez indiqué l'impact du paramètre sur le contenu, vous devez dire à Google ce qu'il doit faire :

  • Laisser Googlebot décider : sélectionnez cette option si vous n'êtes pas sûr du comportement du paramètre ou si celui-ci diffère selon les parties du site. Googlebot analysera votre site pour déterminer comment gérer au mieux ce paramètre.
  • Toutes les URL : Googlebot se base sur la valeur du paramètre pour déterminer si une URL est unique. Par exemple, www.example.com/robes/real.htm?productid=1202938 et www.example.com/robes/real.htm?productid=5853729 sont considérées comme deux URL totalement distinctes. Avant de sélectionner cette option, assurez-vous que le paramètre modifie vraiment le contenu de la page. Dans le cas contraire, il peut amener Googlebot à explorer inutilement des contenus en double sur votre site.
  • Uniquement les URL dont la valeur est : (à sélectionner dans une liste). Googlebot explore uniquement les URL dont le paramètre est défini sur la valeur indiquée. Lorsque la valeur est différente, l'URL n'est pas explorée. Vous pouvez sélectionner cette option si le contenu de vos pages reste le même, mais s'affiche dans un ordre différent en fonction de la valeur définie pour le paramètre. Par exemple, www.example.com/robes/real.htm?sort=price_high présente le même contenu que www.example.com/robes/real.htm?sort=price_low. Utilisez cette option pour indiquer à Googlebot d'explorer uniquement les URL incluant le paramètre sort=price_low (et ainsi éviter d'explorer des contenus en double).
  • Aucune URL : Googlebot n'explore pas les URL contenant ce paramètre. Cette option est utile si votre site utilise de nombreux paramètres pour filtrer le contenu. Par exemple, vous pouvez demander à Googlebot de ne pas explorer les URL incluant des paramètres moins importants, comme pricefrom et priceto (http://www.examples.com/search?cate...color=rouge&size=38&pricefrom=10&priceto=1000). Ainsi, le contenu déjà présent sur la page http://www.examples.com/search?category=chaussure&brand=nike&color=rouge&size=38, qui ne contient pas ces paramètres, ne sera pas exploré une seconde fois.

Gérer les langues​

Si vous utilisez un paramètre qui code la langue pour gérez vos traductions de contenus, choisissez l'option traduction. A priori vous demandez à Google de crawler toutes les URL (quel que soit le code de langue) mais c'est à vous de voir en fonction de votre site. Voici un exemple :

Configurer le crawl sur un site multilingue
Gestion des sites multilingues avec paramètre de langue dans l'URL

Interdire le crawl​

Si vous repérez des URL que Google n'aurait pas dû crawler du tout (a priori c'est rare), vous pouvez configurer le paramètre pour interdire Googlebot de venir explorer les pages concernées :

Bloquer le crawl
Interdire à Googlebot de crawler certaines URL
Attention, avec cette configuration, Google ne viendra plus du tout crawler ce genre de pages. Faites bien attention !
 
Dernière édition:
WRInaute impliqué
Merci pour ce tutoriel Olivier.

Existe-t-il une façon de voir des exemples d'url surveillées ? Est-ce qu'une url surveillée signifie que Google crawl régulièrement cette url ?

Je m'explique : j'utilise le fichier robots.txt ou la balise meta robots pour interdire l'indexation d'url dupliquées à cause de paramètres de tri ou ce genre de chose. Effectivement, ces pages sont introuvables sur Google avec les requêtes du genre site:monsite.com inurl:paramètre.

Par contre, je viens de découvrir dans GWT qu'il y a des centaines de milliers d'url "surveillées" avec des paramètres que je pensais avoir exclu...
 
Nouveau WRInaute
Bonjour,

En bonne élève, j'ai lu le tuto, ai atterri ici puisque j'étais toujours perdue ... et le suis encore !

Ma question concrète : comment dois - je paramétrer ces éléments ? Quels sont ceux à modifier et ceux à laisser tels quels ? Il s'agit dans mon cas d'une boutique prestashop.

Merci !
 
Nouveau WRInaute
Quand google parle du contenu de la page, il s'agit des H1, meta descriptions,... ? Ou vraiment le contenu?
Par exemple, prenons une page qui affiche 9 produits. Si on modifie le nombre de produits par page, en affichant tous les produits sur la même page, est-ce qu'on considère que le contenu est différent ?

Doit-on laisser Google explorer toutes les pages ou une seule ?

En espérant avoir été claire, c'est difficile à expliquer.

Merci d'avance.
 
Olivier Duffez (admin)
Membre du personnel
D'une manière générale, le contenu d'une page c'est tout ce que l'internaute peut voir : du texte, des images, des vidéos, des liens, etc.
Pour le référencement, il est important de comprendre ce qu'on pourrait appeler la zone utile d'une page : c'est la partie qui change d'une page à l'autre. Le reste de la page étant les menus, les barres latérales et le pied de page. Google se concentre surtout sur cette zone utile.

Pour tes pages listings de produits, si tu passes de 9 à 18 produits, le contenu sera effectivement différent. Cela étant, pour ce type de page, il faut faire attention à avoir un peu plus que seulement le listing des produits (il faut un titre spécifique et un descriptif).

Bienvenue sur WRI au passage ;-)
 
Nouveau WRInaute
Merci.
Justement, cette zone utile est différente juste par le nombre de produits affichés. Le titre de la page, le petit texte présentant les produits de la page,etc reste le même qu'il y ait 9 ou 18 produits.
On peut donc dire que le contenu de la page est modifié, réorganisé ou restreint si je ne me trompes pas ?
Dans ce cas, Googlebot doit explorer toutes les pages ou aucunes selon vous ?

Et même question pour la pagination. Le contenu change lorsqu'on change de page (les produits ne sont pas les mêmes, mais le titre et description de la page est le même que sur les autres pages ) ; Le contenu est également je pense modifié, réorganisé ou restreint, mais faut-il que GoogleBot explore toutes les URL ou aucunes ?

Merci pour vos infos sur ce forum, il m'est très utiles;)
 
WRInaute discret
Bonjour,
depuis deux jours, je ne peux plus modifier les paramètre d'url ? sur tous mes sites ?
vous aussi ?
 
Nouveau WRInaute
Bonjour la communauté WRI,

Désolé de déterrer ce topic mais il est celui qui correspond le plus à la question que je me pose !

J'administre un site ecommerce sous magento, avec des urls distinctes pour les produits/catégories (exemple category/brand/item1.html), mais avec des pages de listing au niveau des catégorie qui utilisent une navigation à filtres (paramètres d'url type : /categorie1.html?brand=&price=&color=&tri=&p= etc.)

Niveau duplicate content j'ai réglé ce soucis avec la mise en place d'url canonique, par contre au niveau des webmaster tools j'ai souvent des messages d'alertes comme quoi "Le nombre d'URL détectées par Googlebot est extrêmement élevé"
En effet il surveille jusqu'a 4M d'url sur certains paramètres...

Niveau indexation je n'ai pas de soucis, Google gère très bien et j'ai surveillé, aucune présence d'annonce dans les SERPs avec les paramètres. Par contre je me suis dis qu'il serait intéressant de régler ce soucis histoire d'améliorer la crawlabilité de mon site.

J'ai potassé à droite à gauche pour comprendre le fonctionnement et je viens vers vous pour quelques avis :

- Je compte passer les paramètres d'urls de type price/color/brand en restrictif-> aucune url, tri en tri-> aucune url, p en pagination -> toutes les urls. Jusque-là cela vous semble t'il correct ? ^^

Je sais que je vais en me compliquant la vie à vouloir régler ce soucis, que je devrais laisser en "Laisser Googlebot décider", mais j'ai vraiment envie de comprendre ce point afin de m'améliorer quoi !

Je vous remercie d'avance de votre aide :)
 
Olivier Duffez (admin)
Membre du personnel
Bienvenu sur WRI !

en effet, même si l'indexation semble correcte, le crawl est moins efficace avec ta situation actuelle.

la plupart des retours d'expérience que j'ai pu obtenir m'ont montré qu'il valait mieux régler ce pb en amont, sur le site, plutôt que par un réglage qui ne serait d'ailleurs que Googlebot (alors que tous les moteurs sont concernés)

essaie de bloquer le crawl via le fichier robots.txt
 
WRInaute discret
Bonjour,

Merci pour ton article sur les paramètres URL. J'essaie d'utiliser ce paramètre, mais je trouve que les descriptions données par Google sont pas claires du tout !

Ma situation : J'ai énormément de pages dynamiques (via les "produits suggérés") qui sont toutes crawlées.

J'insiste auprès de Shopify pour qu'ils créent une règle sur le fichier robots.txt, mais c'est pas gagné.

Je suis donc allé sur la search pour demander de ne pas crawler ces pages qui ont des caractères communs (ex: rec_pid). Deux éléments me font douter sur le bon fondé de ma démarche
  • Si je choisis "contenu de page non modifié" (qui correspond à mon cas), il est écrit : "Si plusieurs URL ne diffèrent que par ce paramètre, Googlebot n'en explorera qu'une seule (URL représentative).". Ça ne risque pas de prendre une de ces URLs en représentative et exclure l'URL canonique (ce qui serait juste la cata)?
  • Si je choisie "contenu de page modifié/réorganisé/restreint" (qui n'est pas le cas) et "aucune URL", la description semble pourtant bien plus correspondre ! "Aucune URL : utilisez cette option pour indiquer à Google de ne pas explorer les URL qui contiennent un paramètre spécifique. Google n'explorera aucune URL contenant le paramètre spécifié. Ainsi, vous pouvez indiquer à Google de ne pas explorer les URL avec des paramètres comme pricefrom et priceto (...)"
Bref je comprends que la meilleure option comme tu l'as indiqué plus haut est de modifier le fichier robots.txt, mais si pas possible, faut que je fasse au mieux via la search..
 
Dernière édition par un modérateur:
Olivier Duffez (admin)
Membre du personnel
Joli déterrage d'un sujet de 9 ans...

Sur Shopify tu ne peux rien modifier du fichier robots.txt ?

Montre-nous qq exemples d'URL concernées
 
WRInaute discret
Héhé j'avoue, mais il n'y a que dans votre article et cette discussion qu'on trouve ce sujet

exemple d'une URL canonique : ICI
et une de ses nombreuses URLs générée en ouvrant le produit suggéré : LA
 
Nouveau WRInaute
Pas possible le edit du robots.txt dans Shopify, mais verifiez si vous reussisez avec cela dans le head du theme.liquid (en changeant le "parameterA")

{% if template contains 'parameterA' %}
<meta name="robots" content="noindex">
{% endif %}
 
WRInaute discret
Bonjour, merci oui j'ai fait cela depuis quelques temps, mais ça n'a aucun effet.
apparemment (d'après un des posts d'Olivier sur un autre sujet), il faut au préalable désindexer ces pages.. du coup désindexer les URLs canoniques je suppose (?)
 
Discussions similaires
Haut