Vous êtes ici : Dossiers référencement > Techniques de référencement

Membre WebRankInfo ?

S'inscrire Aide

La balise link rel=canonical contre le duplicate content

Par , Lundi 16 février 2009

Le problème des contenus dupliqués (duplicate content) est un des sujets les plus récurrents dans le domaine du référencement : il y a d'ailleurs beaucoup d'incompréhensions sur ce sujet mais ceci fera l'objet d'un autre article. Aujourd'hui, nous allons analyser la nouvelle proposition commune de Google, Yahoo et Bing pour essayer de résoudre les problèmes de contenus dupliqués (à l'intérieur d'un site) : la balise spéciale link rel=canonical qui décrit l'URL canonique d'une page (c'est-à-dire son URL officielle).

Le problème du contenu dupliqué

Il y a de nombreuses situations qui font qu'une page est accessible à plusieurs URL, en général à cause d'une mauvaise conception du site (j'ai d'ailleurs donné des conseils pour corriger les problèmes de contenus dupliqués). Ceci pose problème pour le référencement car :

  • pour analyser une page web ou tout document web indexable (PDF, Flash, .doc, etc.), les moteurs de recherche fonctionnent avec comme principe 1 page = 1 URL : une page est identifiée par une URL.
  • donc si l'URL est différente, c'est a priori une autre page, analysée différemment

En conséquence, quand une même page web est accessible à plusieurs endroits, les moteurs de recherche considèrent par défaut qu'il s'agit de plusieurs pages. Imaginons donc une fiche produit accessible à plusieurs URL (à cause des identifiants de session, des paramètres de tracking et d'affiliés, de la présence du produit dans plusieurs catégories, etc.). Si chacune de ces versions reçoit des liens différents (venant d'autres sites par exemple), alors chaque page est en concurrence avec les autres dans les pages de résultats Google.

Si inversement le site est bien construit et qu'une page n'est accessible qu'à une seule URL quelles que soient les conditions, alors cette page concentre tous les atouts pour le référencement (notamment au travers de ces fameux backlinks).

Conclusion : vous n'allez pas recevoir un carton rouge de la page de Google parce que vous avez des pages accessibles à plein d'URL à la fois, mais vous vous donnez beaucoup moins de chances de réussir à bien vous positionner dans les moteurs.

La solution de l'URL canonique

La solution proposée par les 3 principaux moteurs est très simple et a priori très efficace, à tel point qu'on se demande pourquoi cela n'a pas été introduit auparavant. Le principe est de permettre au webmaster d'indiquer pour chaque page de son site quelle est l'URL canonique, c'est-à-dire l'URL officielle de la page.

En quelque sorte, le webmaster indique l'URL à laquelle la page est censée être trouvée. Toutes les autres versions, qui jusqu'à présent provoquaient du contenu dupliqué, seront désormais considérées par les moteurs comme étant strictement la même page.

Le format de la balise rel=canonical

Par le biais d'une balise link dans le code HTML

La manière la plus simple pour la plupart des cas est de placer une balise dans l'entête HTML de votre page (entre <head> et </head>), avec le format très simple suivant :

<link rel="canonical" href="URL" />

Par exemple pour la page de cet article cela donne :

<link rel="canonical" href="http://www.webrankinfo.com/dossiers/techniques/url-canonique" />

Par le biais d'un entête HTTP

Il est également possible (depuis juin 2011) de définir une URL canonique en ajoutant une ligne dans l'entête HTTP, par exemple par une directive dans le fichier .htaccess. Le format est le suivant :

Link: <URL>; rel="canonical"

Par exemple pour la page de cet article cela donne :

Link: <http://www.webrankinfo.com/dossiers/techniques/url-canonique>; rel="canonical"

C'est le même principe que celui utilisé pour interdire l'indexation d'un document non HTML, par exemple un PDF (car dans ce cas on ne peut pas mettre de balise meta robots noindex).

Questions réponses sur l'URL canonique

Voici une mini FAQ sur l'URL canonique issue du blog de Google, adaptée avec mes commentaires :

rel=canonical est-elle une directive (officielle) ?

Non, c'est un conseil donné aux webmasters, mais nous en tiendrons largement compte dans notre processus visant à déterminer quelle URL indexer.

Faut-il indiquer une URL relative ou absolue ?

Une URL relative fonctionnera bien (chez Google) mais je vous conseille d'utiliser des URL absolues (qui commencent donc par "http://" ou "https://").

L'URL canonique peut-elle faire partie d'un autre nom de domaine ?

Oui depuis décembre 2009, l'URL canonique indiquée sur une page peut faire partie d'un autre domaine (ce n'était pas le cas au lancement de la balise d'URL canonique en février 2009).

Que se passe-t-il si les différentes pages n'ont pas exactement le même contenu ?

Nous autorisons des légères différences, par exemple sur une page qui liste les produits selon un critère de tri. Toutefois nous aurons sans doute besoin de crawler les différentes versions, et plusieurs peuvent parfois (encore) apparaître dans les résultats.

Que se passe-t-il si l'URL canonique renvoie un code 404 ?

Nous continuerons d'indexer vos pages et notre algorithme tentera de trouver une URL canonique qui fonctionne. Bien entendu nous vous conseillons de veiller à ce que vos URL canonique ne renvoient aucun code d'erreur.

Cas d'utilisation de l'URL canonique

Voici plusieurs cas où l'URL canonique peut résoudre des problèmes de duplicate content :

  • le tracking (affiliation, flux RSS ou autres)
  • les identifiants de sessions situés dans l'URL
  • les pages qui sont accessibles à plusieurs URL (exemple : un produit situé dans plusieurs catégories, une page accessible avec des paramètres optionnels dans l'URL)
  • etc.

L'URL canonique est-elle une bonne solution ?

Il me semble évident qu'il s'agit là d'un progrès important, davantage même que les fameux sitemaps. Cela dit j'ai 2 remarques à faire :

  • je crains que cela ne soit un prétexte de plus aux développeurs de créer des sites sans faire attention aux contraintes d'indexation et de référencement. Ceux-ci pourraient en effet être tentés de dire "De toute façon j'ai mis la balise link rel=canonical donc Google se débrouillera" plutôt que de corriger eux-mêmes le problème.
  • je pense qu'une bonne redirection 301 est plus efficace ;-)

Pour en savoir plus

J'ai d'ores et déjà mis à jour mes slides de formation sur le duplicate content pour inclure cette notion et j'en discuterai avec plaisir avec les prochains participants.

Je vous invite à consulter les pages suivantes pour en savoir plus sur cette balise URL canonique :

On a aussi dans le forum WebRankInfo une discussion qui rassemble les bonnes idées pour résoudre les problèmes liés aux contenus dupliqués.

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le référencement (270.000 membres, 1,4 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (SEO, AdWords, Analytics, réseaux sociaux).

Vous avez aimé cet article ? Partagez-le !

Vous aimez WebRankInfo ? Suivez-nous !

Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

Vous devriez lire aussi :

38 commentaires

  1. Voyage indonésie a dit le

    Comment va être gérer le duel entre les sites d'actualité qui publie en même temps des articles de l'Afp.
    Est ce que celui qui aura mis en place ce système de balise sera avantagé par rapport aux autres.
    Un site copieurs pourrait-il voler la vedette au site d'origine moins bien référencé?

  2. Olivier Duffez a dit le

    Cette balise est à usage interne d'un site, elle indique à Google parmi plusieurs URL possibles pour une même page d'un site, laquelle est la version officielle.

    Pour ce qui est du duplicate content externe, Google conserve ses filtres actuels.

  3. Figures Ambigues a dit le

    J'ai un site avec des cadres (je sais c'est pas bien). Le même menu vertical gauche apparaît sur toutes les pages. A chaque chargement d'une nouvelle page, ce menu est peut-être ou sans doute rechargé à l'intérieur du cadre principal. Est-ce que la balise canonical s'applique à ce qui pourrait apparaître comme du "duplicate content" ?
    Merci d'avance pour une réponse (de qui que ce soit, d'ailleurs).

  4. YoyoS a dit le

    Totalement absurde. Moi je préfère que ceux qui savent pas faire un site restent dans leur m€rde et continuent à se plaindre d'un mauvais référencement. Les moteurs nous donnent une solution de facilité comme ça il y aura encore plus des sites mal codés et les sites nuls comme les pros seront vu de la même façon :/

  5. yesnie a dit le

    Cela signifie que les URL qui ne sont pas mentionnées comme canonical ne seront plus référencées par google un peu à la manière de :

    Et que tous les backlinks seront mutualisés ?

  6. sebastien a dit le

    Sur la plupart des blogs on a sur la page d'accueil (ou les pages d'archives) un ensemble d'articles qui peuvent également être lus individuellement dans une page "article seul", où l'article apparait seul avec éventuellement ses commentaires (parfois même il apparait seul dans un page et il apparait avec ses commentaires sur une 3eme page). Ma question est la suivante : la homepage contenant l'article 1 et la page ad'rticle seul de l'article 1 sont elles un duplicate content ?
    Le cas échéant, quelle est l'adresse canonique à indiquer pour chacune de ces pages (surtout dans e cas où homepage et article seul sont bel et bien un cas de duplicate content) ?

  7. Olivier Duffez a dit le

    La balise d'URL canonique n'est pas adaptée pour résoudre ce problème... Sur la page d'accueil ou les pages d'archives, il faut limiter le texte en commun avec les pages d'articles, donc une bonne solution est de n'afficher que le début des articles (comme je fais sur WRI).

  8. Sebastien a dit le

    Merci Olivier (et désolé pour l'abominable rédaction de mon précédent commentaire).
    Le fait qu'on ait du contenu commun sur la homepage et sur la page d'article seul est donc bien un cas de "duplicate content" ?

  9. Olivier Duffez a dit le

    Oui c'est un problème classique de duplicate content rencontré sur les blogs. D'ailleurs faudrait que j'en parle dans mon article sur le référencement des blogs...

  10. Sun Location a dit le

    Cette nouvelle directive reste quand même intéressante mais il faut faire attention à ne pas faire bétises...

    Car une mauvaise définition de l'url canonical peut faire en sorte que google ignore certaines pages...

  11. Olivier Duffez a dit le

    En effet il vaut mieux éviter de se tromper car mettre une mauvaise URL dans la balise link rel canonical peut s'avérer assez catastrophique...

  12. Matdebayonne a dit le

    Effectivement, déclarer une mauvaise url canonique peut s'avérer catastrophique....
    J'ai déclaré la page d'accueil comme url canonique de toutes mes pages du site (mauvaise manipulation) et depuis 1 semaine, baisse très importante des pages indexées dans GG.... (de 40000 pages à 16000)
    3 jours aprés m'en être aperçu, j'ai bien sur corriger/ enlever cette balise de toutes les pages...ma crainte maintenant est de ne plus être réindexé....

  13. Visite de Rome a dit le

    Si tu as résolu le problème Google reviendra t'indexer les pages comme avant petit à petit: patience..

  14. Olivia a dit le

    Aujourd'hui tout le monde prend du contenu repris à gauche et à droite, contribuer donner son avis et apporter des contributions mais tellement de perte quand meme..gare à la duplication donc

  15. Trouvannonces a dit le

    Sujet très intéressant Olivier, je suis régulièrement les articles postés, merci pour le tuyau

  16. Benamour Jr a dit le

    Bonjour,

    Tout d'abord merci pour tous vos tuto, votre site est très enrichissant !
    Je me pose une question concernant cette nouvelle technique.
    J'ai par exemple une page x.php qui accepte différents paramètres tels que x.php?page=2. est-ce si j'indique pour la page x.php le code cela veut dire que seul le contenu de la page 1 (l'absence de paramètre 'page' correspond à la première page) sera référencée et toutes les autres non ?

  17. torrent games a dit le

    Le fait qu'on ait du contenu commun sur la homepage et sur la page d'article seul est donc bien un cas de "duplicate content" ?

  18. imarion a dit le

    Cela signifie que les URL qui ne sont pas mentionnées comme canonical ne seront plus référencées par google un peu à la manière de :Et que tous les backlinks seront mutualisés ?

  19. Olivier Duffez a dit le

    Quand une page A affiche une balise canonique mentionnant une autre URL, le webmaster indique à Google que cette page A ne doit être indexée que sous l'URL canonique.

  20. Olivier Duffez a dit le

    Si la partie commune est réduite, par exemple le début de l'article, ça ne pose pas de problème.

  21. Jerome a dit le

    Tout le monde peut il mettre en place l'URL canonical ?
    Exemple :
    Un site A publie un article unique.
    Un site B reprend à l'identique l'article du site A et ne sais pas gêner pour mettre en place l'URL canonical sur son site.
    Et pour couronner le tout, Google a d'abord indexer le contenu du site B avant celui du site A.

    Une explication ? Une solution ?

  22. Vincent P a dit le

    Comment procéder lorsque dans l'adresse canonique que l'on souhaite indiquer à Google, figure le "&" ? Faut-il soumettre l'adresse en employant "&" ?

  23. Olivier Duffez a dit le

    Oui Vincent, l'URL prise en compte par Google inclut ce qui suit le signe ? et les éventuels &

  24. jump manual a dit le

    Jusqu'ici, lorsqu'il était question de duplicate content, Google nous disait que l'algorithme parvenait à “comprendre” quel était le contenu d'origine

  25. Nicolas a dit le

    Bonjour,

    Doit on mettre une balise canonical uniquement sur la page dupliquée que l'on souhaite associer à la page canonique?

    Je demande ceci car je suis un peu perdu avec le post provenant du service search qulity de Google lui même sur cette article :

    http://www.abondance.com/actualites/20110621-8973-duplicate-content-dust-et-balise-canonical-questionsreponses-avec-google-14.html

    Je cite : Il est nécessaire d'ajouter l'élément canonique non seulement dans la version favorite, mais également - et éventuellement - dans toutes les autres versions non canoniques de la page.

    ???? Quelqu'un peut m'aider à comprendre svp;-) Merci d'avance !

  26. Olivier Duffez a dit le

    Oui autant en mettre une dans tous les cas

  27. Webconsulting a dit le

    "à tel point qu'on se demande pourquoi cela n'a pas été introduit auparavant"

    Une réponse qui me paraît évidente: Aujourd'hui le nombre de pages indexées par les moteurs de recherche est devenu tellement important qu'il faut absolument filtrer les contenus dupliqués.

  28. charlotte a dit le

    Bonjour,

    Y a-t-il un intérêt à mettre une URL canonique sur les pages de son site si leur contenu est unique ?

    Par avance merci

  29. Antoine Canal a dit le

    Bonjour Olivier.

    Petite question: mon site, agentbocaboca.com, comprend plusieurs contenus dupliqués:

    J'ai pour commencer 3 sous répertoires, /france, /belgique, et /suisse.

    J'ai aussi acheté .fr, .be .ch et .eu, qui sont redirigés en 301 vers /france, /belgique, /suisse.

    .eu va sur la page d'accueil du .com, qui permet de choisir la langue.

    Ces trois répertoires contiennent le même site, seuls les logos changent.

    En plus de cela, dans le répertoire /france, je vais être amené à avoir des centaines de sous répertoires avec nouveau répétition de ce site (site dupliqué pour l'usage personnel de chaque utilisateur du site)

    Pour éviter le duplicate content, j'ai un robot.txt qui interdit d'indexer /belgique et /suisse, et qui se met à jour automatiquement pour interdire l'indexation de tout nouveau sous répertoire qui serait créé dans/france (ex : /france/utilisateur1/, 2/.....). J'ai aussi une balise noindex pour chaque page de /belgique, /suisse, et de chaque sous répertoire utilisateur.

    En gros, seules les pages contenues dans /france seront amenées à être indexées.

    Le problème est que les suisses et les belges qui vont vouloir trouver mon site vont tomber sur la page france, et les sites miroirs perso de mes utilisateurs ne pourront pas non plus être trouvés par recherche (uniquement le site principal France).

    L'URL canonique peut-elle m'être utile dans ce cas?

    Pour vous donner un exemple, dans mes sites utilisateurs figurent les coordonnées de l'utilisateur. Si les pages ne sont pas indexées, forcément, personne ne tombera jamais sur sa page en faisant une recherche. Si j'utilise l'URL canonique, sa page pourra-t-elle être trouvée sans que Google considère que c'est du duplicate content? De même pour Belgique et Suisse bien sûr...

    Si je n'ai pas été assez clair, n'hésitez pas à me faire repréciser.

    Amicalement,

    Antoine Canal

  30. Antoine Canal a dit le

    autre chose encore: mes sites d'utilisateurs (sous dossier /france/utilisateurX) sont fait avec des php includes qui vont chercher le code de mes pages du site principal.

    Pour confirmation, le PHP include n'empêche pas le duplicate content, puisqu'au final, la page est bien lue dans son entier, et google ne fait pas la différence. Je me trompe?

  31. Olivier Duffez a dit le

    @Antoine : pour des questions sur des cas aussi détaillés, merci d'utiliser le forum, ce sera plus pratique et plus efficace

  32. Olivier Duffez a dit le

    Peu importe si on fait du PHP, des include PHP ou autre, ce qui compte c'est le code HTML visible au final.
    cf. référencer des pages PHP

  33. Antoine Canal a dit le

    Ok, je vais poster ça sur le forum. Merci pour les PHP include, c'est ce que je pensais, c'est logique. Aurez-vous cependant une réponse à me fournir pour ma première question?

    Amicalement,

    Antoine

  34. bouselahane amid a dit le

    bonsoir Olivier
    est ce que un sous domaine peut etre un url canonical.
    le post date, mais bon

  35. Olivier Duffez a dit le

    Il faudrait préciser la question en donnant un exemple (avec le site fictif example.com)

  36. bouselahane amid a dit le

    bonjour

    merci pour la reponse

  37. D0minique a dit le

    Les URL canoniques sont-elles la solution lorsque 90% du site (20 000 pages)est composé de données acquises sous licence ?

  38. Olivier Duffez a dit le

    @ D0minique : ça veut dire quoi acquises sous licence ? un site A, qui fait indexer ses pages, laisse un site B les faire également indexer ?

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Cherchez dans tous les dossiers

Cherchez par mots-clés dans ~2000 articles :

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.