Vous êtes ici : Dossiers référencement > Débuter en référencement

Membre WebRankInfo ?

S'inscrire Aide

Comment régler les problèmes de contenus dupliqués

Par , Mardi 13 mars 2007

Qui n'a pas été confronté à un problème de duplicate content (contenu dupliqué) sur son site ? Après un bref rappel de la définition du duplicate content, cet article présente 6 erreurs très répandues et bien entendu la façon de les corriger.

On parle de contenu dupliqué dès lors qu'un même contenu est accessible à plusieurs endroits sur le web. L'unité de base des documents étant la page, définie précisément par son URL, on parle de contenu dupliqué quand une même page est accessible à plusieurs URL (voir également cet article récent sur le sujet, en anglais). Dans la majorité des cas, le webmaster n'est même pas au courant qu'il génère du contenu dupliqué. Voici pourquoi je vous liste ici des erreurs bêtes à ne pas commettre :

Erreur n°1 : indexer son site avec et sans www

Avez-vous testé ce qui se passe si on ne tape pas www dans votre URL ? C'est-à-dire qu'on accède à votre site en tapant http://example.com au lieu de . Si votre site reste accessible sans que l'on soit redirigé vers la version officielle (celle qui contient www dans l'URL), alors votre site risque d'être indexé 2 fois par les moteurs, et vous aurez des problèmes de contenus dupliqués. Le remède (déjà indiqué en octobre 2005) : éviter le duplicate content avec et sans www. Remarquez que j'aurais pu prendre l'exemple inverse, c'est-à-dire s'assurer que seul le site sans www est indexable, cela revient au même. N'oubliez pas d'ailleurs que Google permet aux webmasters d'indiquer eux-mêmes quelle est la version officielle de leur site (avec ou sans www), ce qu'on appelle l'URL canonique. Il suffit d'aller dans son compte Webmaster Central.

Erreur n°2 : avoir 2 URL pour sa page d'accueil

Presque tous les sites sont conçus avec un lien sur chaque page pour retourner à la page d'accueil (en général ce lien est situé sur le logo du site). Avez-vous vérifié que ce lien pointe bien vers l'URL précise de votre nom de domaine et non pas autre chose ? Dans mon cas ma page d'accueil est index.php mais tous mes liens pointent vers http://www.webrankinfo.com/ et pas vers http://www.webrankinfo.com/index.php, sinon il y a encore un problème de contenu dupliqué (et notamment une dilution du PageRank et des autres effets liés aux backlinks).

Vous aurez beau avoir fait attention à bien faire pointer tous vos liens internes vers la bonne URL, vous ne serez jamais à l'abri de liens erronés issus d'autres sites. Si vous voulez optimiser votre site à fond, il faut tester sur chaque page (importante) si l'URL demandée est bien l'URL officielle, et dans le cas contraire rediriger (en code 301) vers l'URL officielle. On peut faire ça dans le .htaccess ou en quelques lignes de  PHP.

Je crée une fonction afin de l'utiliser un peu partout sur mon site :

function redirection_301_si_besoin($url_attendue)
{
  if ($_SERVER['REQUEST_URI'] != $url_attendue)
  {
    header("Status: 301 Moved Permanently", false, 301);
    header("Location: http://www.webrankinfo.com".$url_attendue);
    exit;
  }
}

A vous de personnaliser ce bout de code avec votre nom de domaine. Dans mon exemple je l'enregistre dans fonctions.php.
Pour l'utiliser, il suffit de placer ceci tout en haut de votre page à vérifier (ici sur ma page d'accueil) :

<?php include('fonctions.php'); redirection_301_si_besoin("/"); ?>

Attention ce code doit absolument être au tout début de votre fichier, avant toute ligne HTML.

Bien entendu ceux qui ont accès au fichier .htaccess peuvent également l'utiliser pour régler ce problème.

Remarque : Ici je parle de la page d'accueil mais vous aurez compris que ça concerne en fait toutes les pages du site...

Erreur n°3 : avoir 2 URL pour la page 1 (pagination)

Imaginons que vous ayez un forum et que dans pour chaque discussion vous listiez les messages en limitant à 15 messages par page. Vous avez également un système de pagination pour voir les messages des pages 2 et suivantes. Ces pages-là ont certainement dans leur URL un paramètre qui indique le numéro de la page. Avez-vous vérifié que sur les pages 2 et suivantes, le lien vers la page 1 pointe bien vers la même URL que la page par défaut de la discussion ? Exemple :

  • la page par défaut de la discussion est www.example.com/topic.php?t=456
  • la page 2 de la discussion est www.example.com/topic.php?t=456&p=2
  • le lien depuis la page 2 vers la page 1 doit pointer vers www.example.com/topic.php?t=456 et surtout pas vers www.example.com/topic.php?t=456&p=1

Erreur n°4 : avoir 2 types d'URL indexables (réécrites et classiques)

Imaginons que vous veniez de mettre en place la réécriture d'URL (URL Rewriting) sur votre forum. Pour reprendre l'exemple précédent, les URL de pages de discussion sont passées de www.example.com/topic.php?t=456 à www.example.com/topic-456.html. Avez-vous vérifié que vous interdisez l'indexation des pages avec l'ancien format d'URL ? D'ailleurs la meilleure solution dans ce cas est même de rediriger de façon permanente (code 301) chaque page à l'ancien format vers la page équivalente avec le nouveau format. Pour ceux que ça intéresse, je présente régulièrement au cours de mes formations la méthodologie de mise en place de l'URL Rewriting, avec l'optimisation du référencement associée.

Erreur n°5 : avoir plusieurs noms de domaine indexés pour un même site

Sans doute avez-vous acheté plusieurs noms de domaine pour votre site (il y a plusieurs bonnes raisons d'avoir un hébergement en nom de domaine : par prévention pour éviter que d'autres achètent des noms de domaine très proches du vôtre, par souci pratique pour les internautes qui tapent directement l'adresse en inversant .fr et .com par exemple, etc.). Peut-être avez-vous mis en place des redirections (permanentes, code 301) vers le nom de domaine officiel (si vous ne l'avez pas fait, vous savez ce qu'il vous reste à faire). Mais avez-vous regardé si ces noms de domaine secondaires sont indexés ? Il ne faut surtout pas que votre site soit indexé plusieurs fois, pour chaque nom de domaine. Si par hasard c'est le cas, c'est sans doute que vous n'avez pas mis en place les bonnes redirections, donc vérifiez que tous les domaines secondaires sont redirigés en 301 vers le domaine principal.

Erreur n°6 : ne pas toujours passer les variables dans les URL dans le même ordre

Si vous avez un site dynamique et que vous n'avez pas encore mis en place la réécriture d'URL, vous avez peut-être des URL qui contiennent plusieurs paramètres (variables) comme viewtopic.php?t=2534&postdays=0&postorder=asc&start=15. Le problème est que cette page est accessible également sans aucun problème aux URL suivantes : viewtopic.php?t=2534&postorder=asc&postdays=0&start=15 ou viewtopic.php?postdays=0&postorder=asc&start=15&t=2534 (entre autres possibilités... car il faut aussi penser aux cas où certains paramètres optionnels sont absents, par exemple ici postdays pourrait sans doute être supprimé).

Ceux qui utilisent la réécriture d'URL ont en général bien compris que dans le code, il faut centraliser la gestion de l'URL d'une page dans une fonction. Ainsi partout dans le code, pour générer un lien vers une page, on utilise la fonction qui formate l'URL, et de cette façon les URL ont toujours le même format (paramètres passés dans le même ordre). Cette bonne pratique peut bien entendu être appliquée dans tous les cas, avec ou sans réécriture d'URL.

Si vous avez d'autres exemples d'erreurs classiques de contenus dupliqués, je me permettrais de les intégrer dans cet article pour le mettre à jour.

Solution universelle : l'URL canonique

Depuis février 2009, Google gère l'URL canonique avec la balise link canonical. C'est une bonne solution alternative qu'il faut au moins connaître...

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le référencement (250.000 membres, 1,4 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (SEO, AdWords, Analytics, réseaux sociaux).

Vous avez aimé cet article ? Partagez-le !

Vous aimez WebRankInfo ? Suivez-nous !

Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

Vous devriez lire aussi :

44 commentaires

  1. TOMHTML a dit le

    Félicitations pour l'article. ça a le mérite d'être clair et efficace :)

  2. le furet a dit le

    Merci, je m'en vais de ce pas faire quelques corrections ;-)

  3. Guillaume a dit le

    Effectivement, à avoir sur toute bonne check-list ;)

  4. Location vacances a dit le

    C'est vrai que le duplicate content peu être un réel problème en terme de référencement.
    Merci pour cet article clair et précis.

  5. Grand-Pas a dit le

    Ce problème de duplicate content mérite effectivement de plus amples informations. Une question récurrente étant de savoir si un site internet ayant plusieurs noms de domaines pointant vers une seule url peut être victime de duplicate content... Toujours pas trouvé de réponse claire à cette question...

  6. Artemia a dit le

    Pour l'erreur N°2 ne peut-elle pas être solutionnée dans le .htaccess ?

  7. Yazerty a dit le

    Artemia > Si :).

  8. Nico a dit le

    Excellent article. Pour le N.2 je ne savais pas.

  9. Mona a dit le

    Merci pour l'info. Reste à faire un article sur la gestion des sous-domaines... encore floue pour moi !

  10. JJhalin a dit le

    Salut,

    perso j'essaie de resoudre le n°2 en htaccess j'ai que des problèmes! ca ne crée pas une sorte de boucle infinie?

    généralement un htaccess c'est: nompage1.html nompage2.html [parametres]

    mais comme il s'agit de la racine, que mettre en nompage2?

    merci

  11. Eric a dit le

    Merci pour l'info. Je pense que cela est bien sur aussi valable pour ce qui pointe directement sur un sous-répertoire ayant une page d'entrée à index.htm ou php.

  12. jona a dit le

    D'abord merci pour tous ces conseils.

    Concernant le point numéro deux. Je me demande une chose.
    Ce genre d'erreur ne se limite probablement pas à la page d'accueil.

    J'ai par exemple des pages de langues étrangères ou deux Urls sont référencées pour le même contenu

    et

    En fait il me semble qu'à chaque fois qu'on créé une page sur un index (accueil ou pas) il faut ensuite faire très attention à ne pas se planter autant dans les lien internes que dans les liens externes.

  13. woof a dit le

    JJhalin, j'ai effectivement rencontré ce problème de boucle: une redirection simple ne suffit pas.
    Il faut écrire les lignes suivantes dans le fichier .htaccess pour Apache:

     RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.htm HTTP/
    RewriteRule ^index.htm$ www.example.com/ [R=301,L]

    Source intéressante sur le sujet: http://www.webmasterwoman.com/design-development/redirect-homepage.html

    Sinon, je rencontre un autre cas de duplicate content dans le cas d'un site multilingue avec détection automatique de la langue: voir mon post sur d'autres problèmes de duplicate content

  14. SuperPJ a dit le

    excellent article

  15. ogunsplace a dit le

    et ben il y a du pain sur la planche !!
    et hop au boulot!
    bravo et merci

  16. Sam a dit le

    Et quelles sont les conséquences en termes de réferencement pour un contenu dupliqué ?

  17. ogunsplace a dit le

    Ou en effet , j'etait en index.html mais j'ai un index.php maintenant, j'ai effacé le index.html mais il me redirige sur une autre page en .html sur la racine du site, donc tans pis maintenant j'ai remis l'index.html qui fait une redirection sur le l'index.php, bof on verra bien !!!

  18. JJhalin a dit le

    Salut woof! merci pour l'info

    Malheureusement j'ai testé ce code, et ca ne fait rien du tout! g pris soin de modifier le htm en php pour mes pages, mais rien n'a changé. on accede toujours a index.php sans etre redirigé.

    a+

  19. Voyage indonésie a dit le

    A ajouter aussi les urls de page d'impression ou de l'article sous un autre format word, pdf

    Reprise aussi parfois des articles sur une page commentaire.

  20. Maxdz a dit le

    Bonjour,
    merci pour ce précieux article ;)
    Concernant les redirections j'ai apporté une petite modif' permettant d'appeler plusieurs fois cette fonction dans la même page dans le cas de sites dynamiques.

    function redirection_301_si_besoin($url_envoyee,$url_attendue)
    {
      if ($_SERVER['REQUEST_URI'] == $url_envoyee)
      {
        header("Status: 301 Moved Permanently", false, 301);
        header("Location: ".$url_attendue);
        exit;
      }
    }
    

    Ainsi on peut faire la comparaison entre l'url envoyée et l'url attendue :) .

  21. M’baye a dit le

    Bonjour,

    A partir de quel pourcentage le duplicate content devient detectable par Google ?

    Cordialmement

    Hamet

  22. Olivier Duffez a dit le

    Même si quelqu'un donnait une valeur de ce pourcentage, est-ce que ça vous avancerait ? Car avec quel outil le calculeriez-vous ? Google utilise une combinaison de plusieurs algorithmes connus dans la littérature sur ce sujet, si bien qu'il est impossible de répondre à votre question...
    Déjà, il faut éviter de créer du contenu dupliqué, c'est-à-dire un même contenu accessible à plusieurs URL.

  23. Chris a dit le

    Bonjour,

    J'ai justement le cas n°5 qui se pose avec différents noms de domaines réservés chez Orange et un seul compte FTP.
    Ainsi quelque soit l'url que je tape j'ai le même contenu (seule le ndd change). J'ai demandé à Orange de rediriger tous les noms de domaine vers le principal mais ils ne savent pas comment faire à part créer un autre hébergement sur lequel pointeraient tous les NDD sauf le principal et où je pourrais enfin placer un .htaccess avec des règles de redirection vers le compte principal.
    Est ce la meilleure solution ou y a t il mieux ? (si ce n'est changer d'hébergeur !!)
    Merci d'avance

  24. Val, développeur CMS a dit le

    Bonjour,
    Concernant la question "A partir de quel pourcentage le duplicate content devient detectable par Google ?", personnellement je la comprends ainsi :

    Je gère un site de cours de photos, http://www.cours-de-photo.be
    J'ai une page par salle de cours : exemple : http://cours-de-photo.be/stage-photo-a/liege-sclessin.htm avec la liste des dates pour Liège et une page par type de stage : exemple : http://cours-de-photo.be/cours-de-photo-pour/progresser-en-photo.htm dans lequel j'ai aussi une liste de dates.

    Bien entendu, cette liste est encodée une seule fois et chaque bloc est appelé dans la page de la salle de cours et dans la page du stage. Donc chaque bloc se retrouve à plusieurs endroits dans le site.
    Est-ce du duplicate content ?
    Si oui, il constitue en certain pourcentage de contenu par rapport à la page dans son entièreté. Est-ce suffisant pour que le site soit pénalisé ?

    Merci en tout cas pour ce bel article qui tombe à pic. Bonne journée !

  25. Matt a dit le

    Bonjour,
    J'ai réglé le cas N°1 mais pas le N°2.
    Voilà ce que j'ai dans le .htaccess :

    RewriteEngine On
    RewriteCond %{HTTP_HOST} !^www.crabzy.com [NC]
    RewriteRule (.*) [QSA,R=301,L]

    RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.htm HTTP/
    RewriteRule ^index.htm$ [R=301,L]

    Order Allow,Deny
    Deny from All

    Order Allow,Deny
    Deny from All

    Si j'y rajoute : dans .htacess et cela dans functions.php (noté que j'ai le fichier functions.php et non fonctions.php !! normal ????) le site plante :
    function redirection_301_si_besoin($url_envoyee,$url_attendue)
    {
    if ($_SERVER['REQUEST_URI'] == $url_envoyee)
    {
    header("Status: 301 Moved Permanently", false, 301);
    header("Location: ".$url_attendue);
    exit;
    }
    }

  26. Matt a dit le

    Tiens, je viens de rajouteer cela au .htaccess :
    RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.php HTTP/
    RewriteRule ^index.php$ [R=301,L]

    Maintenant j'ai ce que je voulais mais je perds la fonction "autocomplétion" de ma barre de recherche !!!! Zut!

  27. Astrid a dit le

    Hello,
    j'utilise wordpress et pour les archives les liens vers mes articles vienne avec les dates !

    Je trouvais cela logique mais j'ai vu que c'était déconseiller !
    es ce grave ?

    Merci pour vos articles !

    @ plus

  28. Olivier Duffez a dit le

    Pour ma part je conseille en effet de simplifier les URL en ne mettant pas les dates, mais uniquement pour les nouveaux sites ou nouvelles rubriques.
    Pour un site déjà en place, inutile de changer.

  29. sajoo a dit le

    Je me permets de joindre un article intéressant sur les mythes du duplicate content

  30. Olivier Duffez a dit le

    @sajoo : Google joue sur les mots... "Il n'y a pas de pénalité mais cela va affecter [de nombreux critères]"

  31. sanfoura a dit le

    Bonjour;
    J'indique le canonical URL au fichier index.php de la template; mais encore existe la problème de duplication
    Je dois faire quoi dans ce cas?????????
    SVP me repends c' très ergent

  32. Olivier Duffez a dit le

    @sanfoura : le plus efficace serait de poser la question dans le forum, en donnant des détails (notamment l'adresse du site) sinon on ne peut pas vraiment aider

  33. Rémi Brandini a dit le

    Une autre source de duplicate est de posséder plusieurs IPs pour un seul et même domaine (DNS Round-Robin par exemple).

  34. jh a dit le

    Bonjour,

    J'ai mis en place une redirection d'URL, via un .htaccess, pour mon site de cuisine, au lieu de on a maintenant http://cuisine-facile.com/desserts/recette-bananes-flambees-legeres.html ça marche bien.

    Mais il y a un effet de bord : outre l'id de la recette je transmettais parfois dans l'url d'autres paramètres comme par exemple http://cuisine-facile.com/recette.php?id=12&monnaie=USD et maintenant ne fonctionne plus...

    Y a t'il un moyen de passer un paramètre quand même ou une solution pour contourner ce problème ?

    D'avance merci de vos infos ?

    jh

  35. Olivier Duffez a dit le

    Il faut définir d'autres règles de réécriture et d'autres règles de redirection
    par exemple on pourrait définir /desserts/recette-bananes-flambees-legeres-USD.html comme nouveau format des URL avec monnaie, et mettre en place la redirection de recette.php?id=12&monnaie=USD vers recette-bananes-flambees-legeres-USD.html

    Par contre je me demande si ça ne peut pas générer des problèmes de duplicate content ces monnaies ? (je ne suis pas allé voir le site)

  36. jh a dit le

    Ok mais alors le .htaccess risque d'être énorme, déjà qu'il y a une ligne par recette + une pour les monnaies, une pour le nombre de convives etc...

    Ou alors je fais fausse route sur la façon de faire ?

  37. Olivier Duffez a dit le

    dans ce cas de figure, il ne faut pas faire la redirection dans le .htaccess mais dans le fichier PHP

  38. Jean-Baptiste a dit le

    @jh
    Pourquoi ne pas passer les monnaies en variables de sessions ?

  39. Karim a dit le

    Bonjour,

    Le cadre "A propos de l'auteur" que l'on retrouve sous tous les articles d'Olivier Duffez n'est il pas considéré par google comme du contenu dupliqué ?
    De même pour certaines zones de textes du même genre que l'on retrouve sur plusieurs pages (zone A propos, de la publicité, des indications d'utilisation etc...)

    Merci d'avance pour votre retour, cette question m'est toujours restée sans réponse.

  40. Olivier Duffez a dit le

    Non je ne pense pas qu'il gène, car il représente peu de l'ensemble du contenu de la page.

  41. Karim a dit le

    En effet c'est peu de contenu comparé au reste de la page sur ce site.
    Dans mon cas, la partie dupliquée sera au moins équivalente au contenu de la page voir plus conséquente. Ça risque de poser problème... Merci !

  42. djanahana a dit le

    Bonjour

    vous avez dit "vérifiez que tous les domaines secondaires sont redirigés en 301 vers le domaine principal." ,je ne sais pas qu'est ce que ça veut dire??je suis débutante de se domaine de référencement

    merci

  43. Olivier Duffez a dit le

    @djanahana : si votre site est accessible via d'autres noms de domaine que le nom de domaine officiel, par exemple avec d'autres extensions du nom de domaine, ou des versions avec/sans tirets, alors attention si ces versions se font indexer car cela crée du duplicate content.

  44. Kitto a dit le

    Bonjour,
    Mais site est accessible par la racine et par la page index.php, ce qui donne une duplication !
    J'ai essayé la méthode mentionnée, mais ça fonctionne pas sur mon site.
    Y a t il un simple code à insérer dans le htaccess pour rediriger la page index.php vers -www.monsite.com ?

    Merci

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Cherchez dans tous les dossiers

Cherchez par mots-clés dans ~2000 articles :

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.