La balise link rel="canonical" contre le duplicate content
Par Olivier Duffez
, Lundi 16 février 2009
Le problème des contenus dupliqués (duplicate content) est un des sujets les plus récurrents dans le domaine du référencement : il y a d'ailleurs beaucoup d'incompréhensions sur ce sujet mais ceci fera l'objet d'un autre article. Aujourd'hui, nous allons analyser la nouvelle proposition commune de Google, Yahoo et Bing pour essayer de résoudre les problèmes de contenus dupliqués (à l'intérieur d'un site) : la balise spéciale link rel=canonical qui décrit l'URL canonique d'une page (c'est-à-dire son URL officielle).
Le problème du contenu dupliqué
Il y a de nombreuses situations qui font qu'une page est accessible à plusieurs URL, en général à cause d'une mauvaise conception du site (j'ai d'ailleurs donné des conseils pour corriger les problèmes de contenus dupliqués). Ceci pose problème pour le référencement car :
- pour analyser une page web ou tout document web indexable (PDF, Flash, .doc, etc.), les moteurs de recherche fonctionnent avec comme principe 1 page = 1 URL : une page est identifiée par une URL.
- donc si l'URL est différente, c'est a priori une autre page, analysée différemment
En conséquence, quand une même page web est accessible à plusieurs endroits, les moteurs de recherche considèrent par défaut qu'il s'agit de plusieurs pages. Imaginons donc une fiche produit accessible à plusieurs URL (à cause des identifiants de session, des paramètres de tracking et d'affiliés, de la présence du produit dans plusieurs catégories, etc.). Si chacune de ces versions reçoit des liens différents (venant d'autres sites par exemple), alors chaque page est en concurrence avec les autres dans les pages de résultats Google.
Si inversement le site est bien construit et qu'une page n'est accessible qu'à une seule URL quelles que soient les conditions, alors cette page concentre tous les atouts pour le référencement (notamment au travers de ces fameux backlinks).
Conclusion : vous n'allez pas recevoir un carton rouge de la page de Google parce que vous avez des pages accessibles à plein d'URL à la fois, mais vous vous donnez beaucoup moins de chances de réussir à bien vous positionner dans les moteurs.
La solution de l'URL canonique
La solution proposée par les 3 principaux moteurs est très simple et a priori très efficace, à tel point qu'on se demande pourquoi cela n'a pas été introduit auparavant. Le principe est de permettre au webmaster d'indiquer pour chaque page de son site quelle est l'URL canonique, c'est-à-dire l'URL officielle de la page.
En quelque sorte, le webmaster indique l'URL à laquelle la page est censée être trouvée. Toutes les autres versions, qui jusqu'à présent provoquaient du contenu dupliqué, seront désormais considérées par les moteurs comme étant strictement la même page.
Le format de la balise rel=canonical
Cette balise est à placer dans l'entête HTML de votre page (entre <head> et </head>), avec le format très simple suivant :
<link rel="canonical" href="URL" />
Par exemple pour la page de cet article cela donne :
<link rel="canonical" href="http://www.webrankinfo.com/dossiers/techniques/url-canonique" />
Questions réponses sur l'URL canonique
Voici une mini FAQ sur l'URL canonique issue du blog de Google, adaptée avec mes commentaires :
rel=canonical est-elle une directive (officielle) ?
Non, c'est un conseil donné aux webmasters, mais nous en tiendrons largement compte dans notre processus visant à déterminer quelle URL indexer.
Faut-il indiquer une URL relative ou absolue ?
Une URL relative fonctionnera bien (chez Google) mais le mieux est sans doute d'utiliser des URL absolues (qui commencent donc par "http://" ou "https://").
L'URL canonique peut-elle faire partie d'un autre nom de domaine ?
Oui depuis décembre 2009, l'URL canonique indiquée sur une page peut faire partie d'un autre domaine (ce n'était pas le cas au lancement de la balise d'URL canonique en février 2009).
Que se passe-t-il si les différentes pages n'ont pas exactement le même contenu ?
Nous autorisons des légères différences, par exemple sur une page qui liste les produits selon un critère de tri. Toutefois nous aurons sans doute besoin de crawler les différentes versions, et plusieurs peuvent parfois (encore) apparaître dans les résultats.
Que se passe-t-il si l'URL canonique renvoie un code 404 ?
Nous continuerons d'indexer vos pages et notre algorithme tentera de trouver une URL canonique qui fonctionne. Bien entendu nous vous conseillons de veiller à ce que vos URL canonique ne renvoient aucun code d'erreur.
Cas d'utilisation de l'URL canonique
Voici plusieurs cas où l'URL canonique peut résoudre des problèmes de duplicate content :
- le tracking (affiliation, flux RSS ou autres)
- les identifiants de sessions situés dans l'URL
- les pages qui sont accessibles à plusieurs URL (exemple : un produit situé dans plusieurs catégories, une page accessible avec des paramètres optionnels dans l'URL)
- etc.
L'URL canonique est-elle une bonne solution ?
Il me semble évident qu'il s'agit là d'un progrès important, davantage même que les fameux sitemaps. Cela dit j'ai 2 remarques à faire :
- je crains que cela ne soit un prétexte de plus aux développeurs de créer des sites sans faire attention aux contraintes d'indexation et de référencement. Ceux-ci pourraient en effet être tentés de dire "De toute façon j'ai mis la balise link rel=canonical donc Google se débrouillera" plutôt que de corriger eux-mêmes le problème.
- je pense qu'une bonne redirection 301 est plus efficace ;-)
Pour en savoir plus
J'ai d'ores et déjà mis à jour mes slides de formation sur le duplicate content pour inclure cette notion et j'en discuterai avec plaisir avec les prochains participants.
Je vous invite à consulter les pages suivantes pour en savoir plus sur cette balise URL canonique :
- la discussion dans le forum WebRankInfo sur link rel=canonical
- l'article présentant des plugins pour l'URL canonique
- l'annonce par Google, Yahoo et Live Search
- des articles très complets en anglais : SEOmoz, SEL
On a aussi dans le forum WebRankInfo une discussion qui rassemble les bonnes idées pour résoudre les problèmes liés aux contenus dupliqués.
A propos de l'auteur : Olivier Duffez
![]()
Consultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
24 commentaires
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
Catégories des dossiers
- Actualité
- Android
- Autres produits Google
- Brèves
- Conseils référencement
- Débuter en référencement
- Droit et Internet
- e-marketing
- Ecrire pour le web et le référencement
- Gmail
- Google AdSense
- Google AdWords
- Google Analytics
- Google Chrome
- Google Images
- Google Labs
- Google Maps
- Google Mobile
- Google News
- Google Search
- Google Toolbar
- Google Webmaster Tools
- Google+
- Indexation Google
- L'entreprise Google
- Les API de Google
- Livres sur le référencement et les moteurs de recherche
- Outils
- PageRank
- R&D référencement
- Ranking Metrics
- Référencement Bing
- Référencement des images
- Référencement et PHP
- Référencement local
- Référencement Yahoo
- Référencement Yandex
- Réseaux sociaux
- Sitemaps
- Stratégies de liens
- Stratégies de mots-clés
- Techniques de référencement
- Webmastering
- WebRankInfo
- YouTube
Sites de l'annuaire
- Balise GPS de géolocalisation
- Réduire un lien gratuitement
- Balises ELT de survie et de détresse pour l'Aéronautique
- Apprendre comment créer un site Web pour débutants
- Actualités et ressources sur le HTML5
- Bolo : système de repérage
- Redirection web gratuite par Xewing
- OPEN LINK :: Agence WEB spécialisée dans la création de sites Internet en Tunisie



18 février 2009 à 11:51
Comment va être gérer le duel entre les sites d'actualité qui publie en même temps des articles de l'Afp.
Est ce que celui qui aura mis en place ce système de balise sera avantagé par rapport aux autres.
Un site copieurs pourrait-il voler la vedette au site d'origine moins bien référencé?
19 février 2009 à 8:58
Cette balise est à usage interne d'un site, elle indique à Google parmi plusieurs URL possibles pour une même page d'un site, laquelle est la version officielle.
Pour ce qui est du duplicate content externe, Google conserve ses filtres actuels.
19 février 2009 à 12:04
J'ai un site avec des cadres (je sais c'est pas bien). Le même menu vertical gauche apparaît sur toutes les pages. A chaque chargement d'une nouvelle page, ce menu est peut-être ou sans doute rechargé à l'intérieur du cadre principal. Est-ce que la balise canonical s'applique à ce qui pourrait apparaître comme du "duplicate content" ?
Merci d'avance pour une réponse (de qui que ce soit, d'ailleurs).
19 février 2009 à 21:17
Totalement absurde. Moi je préfère que ceux qui savent pas faire un site restent dans leur m€rde et continuent à se plaindre d'un mauvais référencement. Les moteurs nous donnent une solution de facilité comme ça il y aura encore plus des sites mal codés et les sites nuls comme les pros seront vu de la même façon :/
24 février 2009 à 17:01
Cela signifie que les URL qui ne sont pas mentionnées comme canonical ne seront plus référencées par google un peu à la manière de :
Et que tous les backlinks seront mutualisés ?
8 mars 2009 à 12:08
Sur la plupart des blogs on a sur la page d'accueil (ou les pages d'archives) un ensemble d'articles qui peuvent également être lus individuellement dans une page "article seul", où l'article apparait seul avec éventuellement ses commentaires (parfois même il apparait seul dans un page et il apparait avec ses commentaires sur une 3eme page). Ma question est la suivante : la homepage contenant l'article 1 et la page ad'rticle seul de l'article 1 sont elles un duplicate content ?
Le cas échéant, quelle est l'adresse canonique à indiquer pour chacune de ces pages (surtout dans e cas où homepage et article seul sont bel et bien un cas de duplicate content) ?
8 mars 2009 à 17:46
La balise d'URL canonique n'est pas adaptée pour résoudre ce problème... Sur la page d'accueil ou les pages d'archives, il faut limiter le texte en commun avec les pages d'articles, donc une bonne solution est de n'afficher que le début des articles (comme je fais sur WRI).
8 mars 2009 à 21:34
Merci Olivier (et désolé pour l'abominable rédaction de mon précédent commentaire).
Le fait qu'on ait du contenu commun sur la homepage et sur la page d'article seul est donc bien un cas de "duplicate content" ?
9 mars 2009 à 6:42
Oui c'est un problème classique de duplicate content rencontré sur les blogs. D'ailleurs faudrait que j'en parle dans mon article sur le référencement des blogs...
9 mai 2009 à 15:36
Cette nouvelle directive reste quand même intéressante mais il faut faire attention à ne pas faire bétises...
Car une mauvaise définition de l'url canonical peut faire en sorte que google ignore certaines pages...
11 mai 2009 à 7:44
En effet il vaut mieux éviter de se tromper car mettre une mauvaise URL dans la balise link rel canonical peut s'avérer assez catastrophique...
11 septembre 2009 à 9:24
Effectivement, déclarer une mauvaise url canonique peut s'avérer catastrophique....
J'ai déclaré la page d'accueil comme url canonique de toutes mes pages du site (mauvaise manipulation) et depuis 1 semaine, baisse très importante des pages indexées dans GG.... (de 40000 pages à 16000)
3 jours aprés m'en être aperçu, j'ai bien sur corriger/ enlever cette balise de toutes les pages...ma crainte maintenant est de ne plus être réindexé....
16 novembre 2009 à 19:27
Si tu as résolu le problème Google reviendra t'indexer les pages comme avant petit à petit: patience..
24 mai 2010 à 14:50
Aujourd'hui tout le monde prend du contenu repris à gauche et à droite, contribuer donner son avis et apporter des contributions mais tellement de perte quand meme..gare à la duplication donc
29 août 2010 à 10:27
Sujet très intéressant Olivier, je suis régulièrement les articles postés, merci pour le tuyau
18 septembre 2010 à 18:11
Bonjour,
Tout d'abord merci pour tous vos tuto, votre site est très enrichissant !
Je me pose une question concernant cette nouvelle technique.
J'ai par exemple une page x.php qui accepte différents paramètres tels que x.php?page=2. est-ce si j'indique pour la page x.php le code cela veut dire que seul le contenu de la page 1 (l'absence de paramètre 'page' correspond à la première page) sera référencée et toutes les autres non ?
20 avril 2011 à 17:55
Le fait qu'on ait du contenu commun sur la homepage et sur la page d'article seul est donc bien un cas de "duplicate content" ?
20 avril 2011 à 17:57
Cela signifie que les URL qui ne sont pas mentionnées comme canonical ne seront plus référencées par google un peu à la manière de :Et que tous les backlinks seront mutualisés ?
21 avril 2011 à 8:07
Quand une page A affiche une balise canonique mentionnant une autre URL, le webmaster indique à Google que cette page A ne doit être indexée que sous l'URL canonique.
21 avril 2011 à 8:07
Si la partie commune est réduite, par exemple le début de l'article, ça ne pose pas de problème.
26 mai 2011 à 12:10
Tout le monde peut il mettre en place l'URL canonical ?
Exemple :
Un site A publie un article unique.
Un site B reprend à l'identique l'article du site A et ne sais pas gêner pour mettre en place l'URL canonical sur son site.
Et pour couronner le tout, Google a d'abord indexer le contenu du site B avant celui du site A.
Une explication ? Une solution ?
25 juillet 2011 à 11:16
Comment procéder lorsque dans l'adresse canonique que l'on souhaite indiquer à Google, figure le "&" ? Faut-il soumettre l'adresse en employant "&" ?
25 juillet 2011 à 16:07
Oui Vincent, l'URL prise en compte par Google inclut ce qui suit le signe ? et les éventuels &
20 août 2011 à 8:04
Jusqu'ici, lorsqu'il était question de duplicate content, Google nous disait que l'algorithme parvenait à “comprendre” quel était le contenu d'origine