Vous êtes ici : Dossiers référencement > Techniques de référencement

Membre WebRankInfo ?

S'inscrire Aide

La balise link rel= »canonical » contre le duplicate content

Olivier Duffez, Lundi 16 février 2009

Le problème des contenus dupliqués (duplicate content) est un des sujets les plus récurrents dans le domaine du référencement : il y a d'ailleurs beaucoup d'incompréhensions sur ce sujet mais ceci fera l'objet d'un autre article. Aujourd'hui, nous allons analyser la nouvelle proposition commune de Google, Yahoo et Live Search pour essayer de résoudre les problèmes de contenus dupliqués (à l'intérieur d'un site) : la balise spéciale link rel=canonical qui décrit l'URL canonique d'une page (c'est-à-dire son URL officielle).

Le problème du contenu dupliqué

Il y a de nombreuses situations qui font qu'une page est accessible à plusieurs URL, en général à cause d'une mauvaise conception du site (j'ai d'ailleurs donné des conseils pour corriger les problèmes de contenus dupliqués). Ceci pose problème pour le référencement car :

  • pour analyser une page web ou tout document web indexable (PDF, Flash, .doc, etc.), les moteurs de recherche fonctionnent avec comme principe 1 page = 1 URL : une page est identifiée par une URL.
  • donc si l'URL est différente, c'est a priori une autre page, analysée différemment

En conséquence, quand une même page web est accessible à plusieurs endroits, les moteurs de recherche considèrent par défaut qu'il s'agit de plusieurs pages. Imaginons donc une fiche produit accessible à plusieurs URL (à cause des identifiants de session, des paramètres de tracking et d'affiliés, de la présence du produit dans plusieurs catégories, etc.). Si chacune de ces versions reçoit des liens différents (venant d'autres sites par exemple), alors chaque page est en concurrence avec les autres dans les pages de résultats Google.

Si inversement le site est bien construit et qu'une page n'est accessible qu'à une seule URL quelles que soient les conditions, alors cette page concentre tous les atouts pour le référencement (notamment au travers de ces fameux backlinks).

Conclusion : vous n'allez pas recevoir un carton rouge de la page de Google parce que vous avez des pages accessibles à plein d'URL à la fois, mais vous vous donnez beaucoup moins de chances de réussir à bien vous positionner dans les moteurs.

La solution de l'URL canonique

La solution proposée par les 3 principaux moteurs est très simple et a priori très efficace, à tel point qu'on se demande pourquoi cela n'a pas été introduit auparavant. Le principe est de permettre au webmaster d'indiquer pour chaque page de son site quelle est l'URL canonique, c'est-à-dire l'URL officielle de la page.

En quelque sorte, le webmaster indique l'URL à laquelle la page est censée être trouvée. Toutes les autres versions, qui jusqu'à présent provoquaient du contenu dupliqué, seront désormais considérées par les moteurs comme étant strictement la même page.

Le format de la balise rel=canonical

Cette balise est à placer dans l'entête HTML de votre page (entre <head> et </head>), avec le format très simple suivant :

<link rel="canonical" href="URL" />

Par exemple pour la page de cet article cela donne :

<link rel="canonical" href="http://www.webrankinfo.com/dossiers/techniques/url-canonique" />

Questions réponses sur l'URL canonique

Voici une mini FAQ sur l'URL canonique issue du blog de Google, adaptée avec mes commentaires :

rel=canonical est-elle une directive (officielle) ?

Non, c'est un conseil donné aux webmasters, mais nous en tiendrons largement compte dans notre processus visant à déterminer quelle URL indexer.

Faut-il indiquer une URL relative ou absolue ?

Une URL relative fonctionnera bien (chez Google) mais le mieux est sans doute d'utiliser des URL absolues (qui commencent donc par « http:// » ou « https:// »).

L'URL canonique peut-elle faire partie d'un autre nom de domaine ?

Non, l'URL canonique indiquée sur une page doit faire partie du même domaine (mais il peut s'agir de sous-domaines différents).

Que se passe-t-il si les différentes pages n'ont pas exactement le même contenu ?

Nous autorisons des légères différences, par exemple sur une page qui liste les produits selon un critère de tri. Toutefois nous aurons sans doute besoin de crawler les différentes versions, et plusieurs peuvent parfois (encore) apparaître dans les résultats.

Que se passe-t-il si l'URL canonique renvoie un code 404 ?

Nous continuerons d'indexer vos pages et notre algorithme tentera de trouver une URL canonique qui fonctionne. Bien entendu nous vous conseillons de veiller à ce que vos URL canonique ne renvoient aucun code d'erreur.

Cas d'utilisation de l'URL canonique

Voici plusieurs cas où l'URL canonique peut résoudre des problèmes de duplicate content :

  • le tracking (affiliation, flux RSS ou autres)
  • les identifiants de sessions situés dans l'URL
  • les pages qui sont accessibles à plusieurs URL (exemple : un produit situé dans plusieurs catégories, une page accessible avec des paramètres optionnels dans l'URL)
  • etc.

L'URL canonique est-elle une bonne solution ?

Il me semble évident qu'il s'agit là d'un progrès important, davantage même que les fameux sitemaps. Cela dit j'ai 2 remarques à faire :

  • je crains que cela ne soit un prétexte de plus aux développeurs de créer des sites sans faire attention aux contraintes d'indexation et de référencement. Ceux-ci pourraient en effet être tentés de dire « De toute façon j'ai mis la balise link rel=canonical donc Google se débrouillera » plutôt que de corriger eux-mêmes le problème.
  • je pense qu'une bonne redirection 301 est plus efficace ;-)

Pour en savoir plus

J'ai d'ores et déjà mis à jour mes slides de formation pour inclure cette notion et j'en discuterai avec plaisir avec les prochains participants.

Je vous invite à consulter les pages suivantes pour en savoir plus sur cette balise URL canonique :


Formation référencement et webmarketing

Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).


Lectures recommandées sur ce thème :

  • Analyseur de densité
    Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page.
  • Détection de pages dupliquées
    Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.


13 commentaires sur “link rel=canonical pour réduire les contenus dupliqués”

  1. Comment va être gérer le duel entre les sites d’actualité qui publie en même temps des articles de l’Afp.
    Est ce que celui qui aura mis en place ce système de balise sera avantagé par rapport aux autres.
    Un site copieurs pourrait-il voler la vedette au site d’origine moins bien référencé?

  2. Cette balise est à usage interne d’un site, elle indique à Google parmi plusieurs URL possibles pour une même page d’un site, laquelle est la version officielle.

    Pour ce qui est du duplicate content externe, Google conserve ses filtres actuels.

  3. J’ai un site avec des cadres (je sais c’est pas bien). Le même menu vertical gauche apparaît sur toutes les pages. A chaque chargement d’une nouvelle page, ce menu est peut-être ou sans doute rechargé à l’intérieur du cadre principal. Est-ce que la balise canonical s’applique à ce qui pourrait apparaître comme du « duplicate content » ?
    Merci d’avance pour une réponse (de qui que ce soit, d’ailleurs).

  4. YoyoS dit :

    Totalement absurde. Moi je préfère que ceux qui savent pas faire un site restent dans leur m€rde et continuent à se plaindre d’un mauvais référencement. Les moteurs nous donnent une solution de facilité comme ça il y aura encore plus des sites mal codés et les sites nuls comme les pros seront vu de la même façon :/

  5. yesnie dit :

    Cela signifie que les URL qui ne sont pas mentionnées comme canonical ne seront plus référencées par google un peu à la manière de :

    Et que tous les backlinks seront mutualisés ?

  6. sebastien dit :

    Sur la plupart des blogs on a sur la page d’accueil (ou les pages d’archives) un ensemble d’articles qui peuvent également être lus individuellement dans une page « article seul », où l’article apparait seul avec éventuellement ses commentaires (parfois même il apparait seul dans un page et il apparait avec ses commentaires sur une 3eme page). Ma question est la suivante : la homepage contenant l’article 1 et la page ad’rticle seul de l’article 1 sont elles un duplicate content ?
    Le cas échéant, quelle est l’adresse canonique à indiquer pour chacune de ces pages (surtout dans e cas où homepage et article seul sont bel et bien un cas de duplicate content) ?

  7. La balise d’URL canonique n’est pas adaptée pour résoudre ce problème… Sur la page d’accueil ou les pages d’archives, il faut limiter le texte en commun avec les pages d’articles, donc une bonne solution est de n’afficher que le début des articles (comme je fais sur WRI).

  8. Sebastien dit :

    Merci Olivier (et désolé pour l’abominable rédaction de mon précédent commentaire).
    Le fait qu’on ait du contenu commun sur la homepage et sur la page d’article seul est donc bien un cas de « duplicate content » ?

  9. Oui c’est un problème classique de duplicate content rencontré sur les blogs. D’ailleurs faudrait que j’en parle dans mon article sur le référencement des blogs

  10. Sun Location dit :

    Cette nouvelle directive reste quand même intéressante mais il faut faire attention à ne pas faire bétises…

    Car une mauvaise définition de l’url canonical peut faire en sorte que google ignore certaines pages…

  11. En effet il vaut mieux éviter de se tromper car mettre une mauvaise URL dans la balise link rel canonical peut s’avérer assez catastrophique…

  12. Matdebayonne dit :

    Effectivement, déclarer une mauvaise url canonique peut s’avérer catastrophique….
    J’ai déclaré la page d’accueil comme url canonique de toutes mes pages du site (mauvaise manipulation) et depuis 1 semaine, baisse très importante des pages indexées dans GG…. (de 40000 pages à 16000)
    3 jours aprés m’en être aperçu, j’ai bien sur corriger/ enlever cette balise de toutes les pages…ma crainte maintenant est de ne plus être réindexé….

  13. Si tu as résolu le problème Google reviendra t’indexer les pages comme avant petit à petit: patience..

Laisser une réponse

Hébergement web

Sivit

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.

A partir de 1,90 EUR HT/mois.

A la une sur WebRankInfo

Formation au référencement

Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.

Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !

Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.

Détails et inscription

Logiciel de pro

Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.

Téléchargement télécharger le logiciel de référencement AgentWebRanking