La balise link rel=canonical contre le duplicate content
Par Olivier Duffez, Lundi 16 février 2009
Le problème des contenus dupliqués (duplicate content) est un des sujets les plus récurrents dans le domaine du référencement : il y a d'ailleurs beaucoup d'incompréhensions sur ce sujet mais ceci fera l'objet d'un autre article. Aujourd'hui, nous allons analyser la nouvelle proposition commune de Google, Yahoo et Bing pour essayer de résoudre les problèmes de contenus dupliqués (à l'intérieur d'un site) : la balise spéciale link rel=canonical qui décrit l'URL canonique d'une page (c'est-à-dire son URL officielle).
Le problème du contenu dupliqué
Il y a de nombreuses situations qui font qu'une page est accessible à plusieurs URL, en général à cause d'une mauvaise conception du site (j'ai d'ailleurs donné des conseils pour corriger les problèmes de contenus dupliqués). Ceci pose problème pour le référencement car :
- pour analyser une page web ou tout document web indexable (PDF, Flash, .doc, etc.), les moteurs de recherche fonctionnent avec comme principe 1 page = 1 URL : une page est identifiée par une URL.
- donc si l'URL est différente, c'est a priori une autre page, analysée différemment
En conséquence, quand une même page web est accessible à plusieurs endroits, les moteurs de recherche considèrent par défaut qu'il s'agit de plusieurs pages. Imaginons donc une fiche produit accessible à plusieurs URL (à cause des identifiants de session, des paramètres de tracking et d'affiliés, de la présence du produit dans plusieurs catégories, etc.). Si chacune de ces versions reçoit des liens différents (venant d'autres sites par exemple), alors chaque page est en concurrence avec les autres dans les pages de résultats Google.
Si inversement le site est bien construit et qu'une page n'est accessible qu'à une seule URL quelles que soient les conditions, alors cette page concentre tous les atouts pour le référencement (notamment au travers de ces fameux backlinks).
Conclusion : vous n'allez pas recevoir un carton rouge de la page de Google parce que vous avez des pages accessibles à plein d'URL à la fois, mais vous vous donnez beaucoup moins de chances de réussir à bien vous positionner dans les moteurs.
La solution de l'URL canonique
La solution proposée par les 3 principaux moteurs est très simple et a priori très efficace, à tel point qu'on se demande pourquoi cela n'a pas été introduit auparavant. Le principe est de permettre au webmaster d'indiquer pour chaque page de son site quelle est l'URL canonique, c'est-à-dire l'URL officielle de la page.
En quelque sorte, le webmaster indique l'URL à laquelle la page est censée être trouvée. Toutes les autres versions, qui jusqu'à présent provoquaient du contenu dupliqué, seront désormais considérées par les moteurs comme étant strictement la même page.
Le format de la balise rel=canonical
Par le biais d'une balise link dans le code HTML
La manière la plus simple pour la plupart des cas est de placer une balise dans l'entête HTML de votre page (entre <head> et </head>), avec le format très simple suivant :
<link rel="canonical" href="URL" />
Par exemple pour la page de cet article cela donne :
<link rel="canonical" href="http://www.webrankinfo.com/dossiers/techniques/url-canonique" />
Par le biais d'un entête HTTP
Il est également possible (depuis juin 2011) de définir une URL canonique en ajoutant une ligne dans l'entête HTTP, par exemple par une directive dans le fichier .htaccess. Le format est le suivant :
Link: <URL>; rel="canonical"
Par exemple pour la page de cet article cela donne :
Link: <http://www.webrankinfo.com/dossiers/techniques/url-canonique>; rel="canonical"
C'est le même principe que celui utilisé pour interdire l'indexation d'un document non HTML, par exemple un PDF (car dans ce cas on ne peut pas mettre de balise meta robots noindex).
Questions réponses sur l'URL canonique
Voici une mini FAQ sur l'URL canonique issue du blog de Google, adaptée avec mes commentaires :
rel=canonical est-elle une directive (officielle) ?
Non, c'est un conseil donné aux webmasters, mais nous en tiendrons largement compte dans notre processus visant à déterminer quelle URL indexer.
Faut-il indiquer une URL relative ou absolue ?
Une URL relative fonctionnera bien (chez Google) mais je vous conseille d'utiliser des URL absolues (qui commencent donc par "http://" ou "https://").
L'URL canonique peut-elle faire partie d'un autre nom de domaine ?
Oui depuis décembre 2009, l'URL canonique indiquée sur une page peut faire partie d'un autre domaine (ce n'était pas le cas au lancement de la balise d'URL canonique en février 2009).
Que se passe-t-il si les différentes pages n'ont pas exactement le même contenu ?
Nous autorisons des légères différences, par exemple sur une page qui liste les produits selon un critère de tri. Toutefois nous aurons sans doute besoin de crawler les différentes versions, et plusieurs peuvent parfois (encore) apparaître dans les résultats.
Que se passe-t-il si l'URL canonique renvoie un code 404 ?
Nous continuerons d'indexer vos pages et notre algorithme tentera de trouver une URL canonique qui fonctionne. Bien entendu nous vous conseillons de veiller à ce que vos URL canonique ne renvoient aucun code d'erreur.
Cas d'utilisation de l'URL canonique
Voici plusieurs cas où l'URL canonique peut résoudre des problèmes de duplicate content :
- le tracking (affiliation, flux RSS ou autres)
- les identifiants de sessions situés dans l'URL
- les pages qui sont accessibles à plusieurs URL (exemple : un produit situé dans plusieurs catégories, une page accessible avec des paramètres optionnels dans l'URL)
- etc.
L'URL canonique est-elle une bonne solution ?
Il me semble évident qu'il s'agit là d'un progrès important, davantage même que les fameux sitemaps. Cela dit j'ai 2 remarques à faire :
- je crains que cela ne soit un prétexte de plus aux développeurs de créer des sites sans faire attention aux contraintes d'indexation et de référencement. Ceux-ci pourraient en effet être tentés de dire "De toute façon j'ai mis la balise link rel=canonical donc Google se débrouillera" plutôt que de corriger eux-mêmes le problème.
- je pense qu'une bonne redirection 301 est plus efficace ;-)
Pour en savoir plus
J'ai d'ores et déjà mis à jour mes slides de formation sur le duplicate content pour inclure cette notion et j'en discuterai avec plaisir avec les prochains participants.
Je vous invite à consulter les pages suivantes pour en savoir plus sur cette balise URL canonique :
- la discussion dans le forum WebRankInfo sur link rel=canonical
- l'article présentant des plugins pour l'URL canonique
- l'annonce par Google, Yahoo et Live Search
- des articles très complets en anglais : SEOmoz, SEL
On a aussi dans le forum WebRankInfo une discussion qui rassemble les bonnes idées pour résoudre les problèmes liés aux contenus dupliqués.
A propos de l'auteur : Olivier Duffez
![]()
Consultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).
Vous avez aimé cet article ? Partagez-le ! | Vous aimez WebRankInfo ? Suivez-nous ! |
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
33 commentaires
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Cherchez dans tous les dossiers
Cherchez par mots-clés dans ~2000 articles :
Dernières brèves :
- 16 mai : Jouer au casse-briques dans Google Images (Easter Egg)
- 6 mai : SERP : Google teste l'affichage de résultats sans leur URL
- 13 mars : Les lunettes Google sur des lunettes de vue
- 12 mars : Penguin 4 sera le + important changement d'algo Google de 2013
- 3 mars : Do the Harlem Shake : vidéo de l'easter egg sur YouTube
- 21 février : Bing améliore son outil de suggestion automatique
- 9 février : Eric Schmidt va vendre pour 2,5 milliards de $ d'actions Google
- 28 janvier : Balise Title : longueur max en nombre ET chasse de caractères
- 15 janvier : El BrowZer: le navigateur de Baidu sur les mobiles Android d'Orange
- 20 décembre : Google Actualités intègre des citations dans les SERP
Catégories des dossiers
Consultez les dossiers par thématiques :
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).
Hébergement web
Hébergement web mutualisé et dédié
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.
A partir de 3€ HT/mois.

18 février 2009 à 11:51
Comment va être gérer le duel entre les sites d'actualité qui publie en même temps des articles de l'Afp.
Est ce que celui qui aura mis en place ce système de balise sera avantagé par rapport aux autres.
Un site copieurs pourrait-il voler la vedette au site d'origine moins bien référencé?
19 février 2009 à 8:58
Cette balise est à usage interne d'un site, elle indique à Google parmi plusieurs URL possibles pour une même page d'un site, laquelle est la version officielle.
Pour ce qui est du duplicate content externe, Google conserve ses filtres actuels.
19 février 2009 à 12:04
J'ai un site avec des cadres (je sais c'est pas bien). Le même menu vertical gauche apparaît sur toutes les pages. A chaque chargement d'une nouvelle page, ce menu est peut-être ou sans doute rechargé à l'intérieur du cadre principal. Est-ce que la balise canonical s'applique à ce qui pourrait apparaître comme du "duplicate content" ?
Merci d'avance pour une réponse (de qui que ce soit, d'ailleurs).
19 février 2009 à 21:17
Totalement absurde. Moi je préfère que ceux qui savent pas faire un site restent dans leur m€rde et continuent à se plaindre d'un mauvais référencement. Les moteurs nous donnent une solution de facilité comme ça il y aura encore plus des sites mal codés et les sites nuls comme les pros seront vu de la même façon :/
24 février 2009 à 17:01
Cela signifie que les URL qui ne sont pas mentionnées comme canonical ne seront plus référencées par google un peu à la manière de :
Et que tous les backlinks seront mutualisés ?
8 mars 2009 à 12:08
Sur la plupart des blogs on a sur la page d'accueil (ou les pages d'archives) un ensemble d'articles qui peuvent également être lus individuellement dans une page "article seul", où l'article apparait seul avec éventuellement ses commentaires (parfois même il apparait seul dans un page et il apparait avec ses commentaires sur une 3eme page). Ma question est la suivante : la homepage contenant l'article 1 et la page ad'rticle seul de l'article 1 sont elles un duplicate content ?
Le cas échéant, quelle est l'adresse canonique à indiquer pour chacune de ces pages (surtout dans e cas où homepage et article seul sont bel et bien un cas de duplicate content) ?
8 mars 2009 à 17:46
La balise d'URL canonique n'est pas adaptée pour résoudre ce problème... Sur la page d'accueil ou les pages d'archives, il faut limiter le texte en commun avec les pages d'articles, donc une bonne solution est de n'afficher que le début des articles (comme je fais sur WRI).
8 mars 2009 à 21:34
Merci Olivier (et désolé pour l'abominable rédaction de mon précédent commentaire).
Le fait qu'on ait du contenu commun sur la homepage et sur la page d'article seul est donc bien un cas de "duplicate content" ?
9 mars 2009 à 6:42
Oui c'est un problème classique de duplicate content rencontré sur les blogs. D'ailleurs faudrait que j'en parle dans mon article sur le référencement des blogs...
9 mai 2009 à 15:36
Cette nouvelle directive reste quand même intéressante mais il faut faire attention à ne pas faire bétises...
Car une mauvaise définition de l'url canonical peut faire en sorte que google ignore certaines pages...
11 mai 2009 à 7:44
En effet il vaut mieux éviter de se tromper car mettre une mauvaise URL dans la balise link rel canonical peut s'avérer assez catastrophique...
11 septembre 2009 à 9:24
Effectivement, déclarer une mauvaise url canonique peut s'avérer catastrophique....
J'ai déclaré la page d'accueil comme url canonique de toutes mes pages du site (mauvaise manipulation) et depuis 1 semaine, baisse très importante des pages indexées dans GG.... (de 40000 pages à 16000)
3 jours aprés m'en être aperçu, j'ai bien sur corriger/ enlever cette balise de toutes les pages...ma crainte maintenant est de ne plus être réindexé....
16 novembre 2009 à 19:27
Si tu as résolu le problème Google reviendra t'indexer les pages comme avant petit à petit: patience..
24 mai 2010 à 14:50
Aujourd'hui tout le monde prend du contenu repris à gauche et à droite, contribuer donner son avis et apporter des contributions mais tellement de perte quand meme..gare à la duplication donc
29 août 2010 à 10:27
Sujet très intéressant Olivier, je suis régulièrement les articles postés, merci pour le tuyau
18 septembre 2010 à 18:11
Bonjour,
Tout d'abord merci pour tous vos tuto, votre site est très enrichissant !
Je me pose une question concernant cette nouvelle technique.
J'ai par exemple une page x.php qui accepte différents paramètres tels que x.php?page=2. est-ce si j'indique pour la page x.php le code cela veut dire que seul le contenu de la page 1 (l'absence de paramètre 'page' correspond à la première page) sera référencée et toutes les autres non ?
20 avril 2011 à 17:55
Le fait qu'on ait du contenu commun sur la homepage et sur la page d'article seul est donc bien un cas de "duplicate content" ?
20 avril 2011 à 17:57
Cela signifie que les URL qui ne sont pas mentionnées comme canonical ne seront plus référencées par google un peu à la manière de :Et que tous les backlinks seront mutualisés ?
21 avril 2011 à 8:07
Quand une page A affiche une balise canonique mentionnant une autre URL, le webmaster indique à Google que cette page A ne doit être indexée que sous l'URL canonique.
21 avril 2011 à 8:07
Si la partie commune est réduite, par exemple le début de l'article, ça ne pose pas de problème.
26 mai 2011 à 12:10
Tout le monde peut il mettre en place l'URL canonical ?
Exemple :
Un site A publie un article unique.
Un site B reprend à l'identique l'article du site A et ne sais pas gêner pour mettre en place l'URL canonical sur son site.
Et pour couronner le tout, Google a d'abord indexer le contenu du site B avant celui du site A.
Une explication ? Une solution ?
25 juillet 2011 à 11:16
Comment procéder lorsque dans l'adresse canonique que l'on souhaite indiquer à Google, figure le "&" ? Faut-il soumettre l'adresse en employant "&" ?
25 juillet 2011 à 16:07
Oui Vincent, l'URL prise en compte par Google inclut ce qui suit le signe ? et les éventuels &
20 août 2011 à 8:04
Jusqu'ici, lorsqu'il était question de duplicate content, Google nous disait que l'algorithme parvenait à “comprendre” quel était le contenu d'origine
17 septembre 2012 à 23:27
Bonjour,
Doit on mettre une balise canonical uniquement sur la page dupliquée que l'on souhaite associer à la page canonique?
Je demande ceci car je suis un peu perdu avec le post provenant du service search qulity de Google lui même sur cette article :
http://www.abondance.com/actualites/20110621-8973-duplicate-content-dust-et-balise-canonical-questionsreponses-avec-google-14.html
Je cite : Il est nécessaire d'ajouter l'élément canonique non seulement dans la version favorite, mais également - et éventuellement - dans toutes les autres versions non canoniques de la page.
???? Quelqu'un peut m'aider à comprendre svp;-) Merci d'avance !
18 septembre 2012 à 9:52
Oui autant en mettre une dans tous les cas
11 novembre 2012 à 18:02
"à tel point qu'on se demande pourquoi cela n'a pas été introduit auparavant"
Une réponse qui me paraît évidente: Aujourd'hui le nombre de pages indexées par les moteurs de recherche est devenu tellement important qu'il faut absolument filtrer les contenus dupliqués.
11 janvier 2013 à 22:01
Bonjour,
Y a-t-il un intérêt à mettre une URL canonique sur les pages de son site si leur contenu est unique ?
Par avance merci
9 février 2013 à 18:11
Bonjour Olivier.
Petite question: mon site, agentbocaboca.com, comprend plusieurs contenus dupliqués:
J'ai pour commencer 3 sous répertoires, /france, /belgique, et /suisse.
J'ai aussi acheté .fr, .be .ch et .eu, qui sont redirigés en 301 vers /france, /belgique, /suisse.
.eu va sur la page d'accueil du .com, qui permet de choisir la langue.
Ces trois répertoires contiennent le même site, seuls les logos changent.
En plus de cela, dans le répertoire /france, je vais être amené à avoir des centaines de sous répertoires avec nouveau répétition de ce site (site dupliqué pour l'usage personnel de chaque utilisateur du site)
Pour éviter le duplicate content, j'ai un robot.txt qui interdit d'indexer /belgique et /suisse, et qui se met à jour automatiquement pour interdire l'indexation de tout nouveau sous répertoire qui serait créé dans/france (ex : /france/utilisateur1/, 2/.....). J'ai aussi une balise noindex pour chaque page de /belgique, /suisse, et de chaque sous répertoire utilisateur.
En gros, seules les pages contenues dans /france seront amenées à être indexées.
Le problème est que les suisses et les belges qui vont vouloir trouver mon site vont tomber sur la page france, et les sites miroirs perso de mes utilisateurs ne pourront pas non plus être trouvés par recherche (uniquement le site principal France).
L'URL canonique peut-elle m'être utile dans ce cas?
Pour vous donner un exemple, dans mes sites utilisateurs figurent les coordonnées de l'utilisateur. Si les pages ne sont pas indexées, forcément, personne ne tombera jamais sur sa page en faisant une recherche. Si j'utilise l'URL canonique, sa page pourra-t-elle être trouvée sans que Google considère que c'est du duplicate content? De même pour Belgique et Suisse bien sûr...
Si je n'ai pas été assez clair, n'hésitez pas à me faire repréciser.
Amicalement,
Antoine Canal
9 février 2013 à 18:24
autre chose encore: mes sites d'utilisateurs (sous dossier /france/utilisateurX) sont fait avec des php includes qui vont chercher le code de mes pages du site principal.
Pour confirmation, le PHP include n'empêche pas le duplicate content, puisqu'au final, la page est bien lue dans son entier, et google ne fait pas la différence. Je me trompe?
9 février 2013 à 19:23
@Antoine : pour des questions sur des cas aussi détaillés, merci d'utiliser le forum, ce sera plus pratique et plus efficace
9 février 2013 à 19:24
Peu importe si on fait du PHP, des include PHP ou autre, ce qui compte c'est le code HTML visible au final.
cf. référencer des pages PHP
9 février 2013 à 19:54
Ok, je vais poster ça sur le forum. Merci pour les PHP include, c'est ce que je pensais, c'est logique. Aurez-vous cependant une réponse à me fournir pour ma première question?
Amicalement,
Antoine