Comment régler vos problèmes de contenus dupliqués
Olivier Duffez, Mardi 13 mars 2007
Qui n'a pas été confronté à un problème de duplicate content (contenu dupliqué) sur son site ? Après un bref rappel de la définition du duplicate content, cet article présente 6 erreurs très répandues et bien entendu la façon de les corriger.
On parle de contenu dupliqué dès lors qu'un même contenu est accessible à plusieurs endroits sur le web. L'unité de base des documents étant la page, définie précisément par son URL, on parle de contenu dupliqué quand une même page est accessible à plusieurs URL (voir également cet article récent sur le sujet, en anglais). Dans la majorité des cas, le webmaster n'est même pas au courant qu'il génère du contenu dupliqué. Voici pourquoi je vous liste ici des erreurs bêtes à ne pas commettre :
Erreur n°1 : indexer son site avec et sans www
Avez-vous testé ce qui se passe si on ne tape pas www dans votre URL ? C'est-à-dire qu'on accède à votre site en tapant http://example.com au lieu de http://www.example.com. Si votre site reste accessible sans que l'on soit redirigé vers la version officielle (celle qui contient www dans l'URL), alors votre site risque d'être indexé 2 fois par les moteurs, et vous aurez des problèmes de contenus dupliqués. Le remède (déjà indiqué en octobre 2005) : éviter le duplicate content avec et sans www. Remarquez que j'aurais pu prendre l'exemple inverse, c'est-à-dire s'assurer que seul le site sans www est indexable, cela revient au même. N'oubliez pas d'ailleurs que Google permet aux webmasters d'indiquer eux-mêmes quelle est la version officielle de leur site (avec ou sans www), ce qu'on appelle l'URL canonique. Il suffit d'aller dans son compte Webmaster Central.
Erreur n°2 : avoir 2 URL pour sa page d'accueil
Presque tous les sites sont conçus avec un lien sur chaque page pour retourner à la page d'accueil (en général ce lien est situé sur le logo du site). Avez-vous vérifié que ce lien pointe bien vers l'URL précise de votre nom de domaine et non pas autre chose ? Dans mon cas ma page d'accueil est index.php mais tous mes liens pointent vers http://www.webrankinfo.com/ et pas vers http://www.webrankinfo.com/index.php, sinon il y a encore un problème de contenu dupliqué (et notamment une dilution du PageRank et des autres effets liés aux backlinks).
Vous aurez beau avoir fait attention à bien faire pointer tous vos liens internes vers la bonne URL, vous ne serez jamais à l'abri de liens erronés
issus d'autres sites. Si vous voulez optimiser votre site à fond, il faut tester sur chaque page (importante) si l'URL demandée est bien l'URL officielle
, et dans le cas contraire rediriger (en code 301) vers l'URL officielle
. On peut faire ça dans le .htaccess ou en quelques lignes de PHP.
Je crée une fonction afin de l'utiliser un peu partout sur mon site :
function redirection_301_si_besoin($url_attendue)
{
if ($_SERVER['REQUEST_URI'] != $url_attendue)
{
header("Status: 301 Moved Permanently", false, 301);
header("Location: http://www.webrankinfo.com".$url_attendue);
exit;
}
}
A vous de personnaliser ce bout de code avec votre nom de domaine. Dans mon exemple je l'enregistre dans fonctions.php.
Pour l'utiliser, il suffit de placer ceci tout en haut de votre page à vérifier (ici sur ma page d'accueil) :
<?php include('fonctions.php'); redirection_301_si_besoin("/"); ?>
Attention ce code doit absolument être au tout début de votre fichier, avant toute ligne HTML.
Bien entendu ceux qui ont accès au fichier .htaccess peuvent également l'utiliser pour régler ce problème.
Remarque : Ici je parle de la page d'accueil mais vous aurez compris que ça concerne en fait toutes les pages du site…
Erreur n°3 : avoir 2 URL pour la page 1 (pagination)
Imaginons que vous ayez un forum et que dans pour chaque discussion vous listiez les messages en limitant à 15 messages par page. Vous avez également un système de pagination pour voir les messages des pages 2 et suivantes. Ces pages-là ont certainement dans leur URL un paramètre qui indique le numéro de la page. Avez-vous vérifié que sur les pages 2 et suivantes, le lien vers la page 1 pointe bien vers la même URL que la page par défaut de la discussion ? Exemple :
- la page par défaut de la discussion est www.example.com/topic.php?t=456
- la page 2 de la discussion est www.example.com/topic.php?t=456&p=2
- le lien depuis la page 2 vers la page 1 doit pointer vers www.example.com/topic.php?t=456 et surtout pas vers www.example.com/topic.php?t=456&p=1
Erreur n°4 : avoir 2 types d'URL indexables (réécrites et classiques)
Imaginons que vous veniez de mettre en place la réécriture d'URL (URL Rewriting) sur votre forum. Pour reprendre l'exemple précédent, les URL de pages de discussion sont passées de www.example.com/topic.php?t=456 à www.example.com/topic-456.html. Avez-vous vérifié que vous interdisez l'indexation des pages avec l'ancien format d'URL ? D'ailleurs la meilleure solution dans ce cas est même de rediriger de façon permanente (code 301) chaque page à l'ancien format vers la page équivalente avec le nouveau format. Pour ceux que ça intéresse, je présente régulièrement au cours de mes formations la méthodologie de mise en place de l'URL Rewriting, avec l'optimisation du référencement associée.
Erreur n°5 : avoir plusieurs noms de domaine indexés pour un même site
Sans doute avez-vous acheté plusieurs noms de domaine pour votre site (il y a plusieurs bonnes raisons d'avoir un hébergement en nom de domaine : par prévention pour éviter que d'autres achètent des noms de domaine très proches du vôtre, par souci pratique pour les internautes qui tapent directement l'adresse en inversant .fr et .com par exemple, etc.). Peut-être avez-vous mis en place des redirections (permanentes, code 301) vers le nom de domaine officiel (si vous ne l'avez pas fait, vous savez ce qu'il vous reste à faire). Mais avez-vous regardé si ces noms de domaine secondaires sont indexés ? Il ne faut surtout pas que votre site soit indexé plusieurs fois, pour chaque nom de domaine. Si par hasard c'est le cas, c'est sans doute que vous n'avez pas mis en place les bonnes redirections, donc vérifiez que tous les domaines secondaires sont redirigés en 301 vers le domaine principal.
Erreur n°6 : ne pas toujours passer les variables dans les URL dans le même ordre
Si vous avez un site dynamique et que vous n'avez pas encore mis en place la réécriture d'URL, vous avez peut-être des URL qui contiennent plusieurs paramètres (variables) comme viewtopic.php?t=2534&postdays=0&postorder=asc&start=15. Le problème est que cette page est accessible également sans aucun problème aux URL suivantes : viewtopic.php?t=2534&postorder=asc&postdays=0&start=15 ou viewtopic.php?postdays=0&postorder=asc&start=15&t=2534 (entre autres possibilités… car il faut aussi penser aux cas où certains paramètres optionnels sont absents, par exemple ici postdays pourrait sans doute être supprimé).
Ceux qui utilisent la réécriture d'URL ont en général bien compris que dans le code, il faut centraliser la gestion de l'URL d'une page dans une fonction. Ainsi partout dans le code, pour générer un lien vers une page, on utilise la fonction qui formate l'URL, et de cette façon les URL ont toujours le même format (paramètres passés dans le même ordre). Cette bonne pratique peut bien entendu être appliquée dans tous les cas, avec ou sans réécriture d'URL.
Si vous avez d'autres exemples d'erreurs classiques de contenus dupliqués, je me permettrais de les intégrer dans cet article pour le mettre à jour.
Solution universelle : l'URL canonique
Depuis février 2009, Google gère l'URL canonique avec la balise link canonical. C'est une bonne solution alternative qu'il faut au moins connaître…
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- Comment éviter les contenus dupliqués (avec/sans le www)
- link rel=canonical pour réduire les contenus dupliqués
- Tutoriel URL Rewriting
- Optimiser les URL pour le référencement
- Domaine favori - URL canonique
- Google Webmaster Central
- Optimiser le référencement d'un forum phpBB : réécriture d'URL
- Suite de l'article sur le fichier .htaccess : l'URL rewriting
- Conseils de Google pour exploiter au mieux son site web
- URL canonique : plugins pour Wordpress, Drupal, Joomla et Magento
- Supprimer de google mes anciennes URL (après URL rewriting)
- duplicate content et url rewriting
- Url rewriting + duplicate content
- URL Rewriting et Duplicate Content
- éviter duplicate content après url rewriting
- Duplicate content après activation de URL Rewriting
- mots dans url - url nom de domaine et hébergeur
- forum phpbb : problème url rewriting et duplicate content
- url rewriting sur page d'accueil et duplicate content
- url rewriting pr ss-domaine: redirection sans modifier url
Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Central, Google Co-Op, Google Webmaster Tools, Google Local Business Ads, Google AdWords API
- Similarité et duplicate content
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Liste des backlinks
Cet outil vous permet d'analyser en détails la "popularité" de votre site sur Google. En plus du nombre de liens pris en compte par Google, il calcule le pourcentage de liens internes parmi tous les liens, et il affiche les premières URL trouvées. - Transformer des textes non cliquables en liens
Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).
20 commentaires sur “Liste d’erreurs classiques de duplicate content”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Pikati - Création et gestion de votre micro crèche
- Atlas Assurances et Finances Courtier en Assurances
- Institut de beauté Nice Spa à Nice - Patricia Laurens: soins du corps soins visage nice
- Maisons d'Avenir, maisons à ossature bois, habitat bio-économique
- Information sur le ski à Gulmarg, Himalaya, Cachemire, Inde
- La Dynamique des Fluides, blog de l'innovation liquide (boissons, agroalimentaire)
- Assurances Axa Corinne Pagnon (78)
- Dépannage informatique à Nantes, site internet, sécurité informatique
- Bon Voyage China circuit personnalisé
- Micro-Puces Voiron Informatique dépannage ordinateurs Isère



Félicitations pour l’article. ça a le mérite d’être clair et efficace :)
Effectivement, à avoir sur toute bonne check-list ;)
Merci, je m’en vais de ce pas faire quelques corrections ;-)
C’est vrai que le duplicate content peu être un réel problème en terme de référencement.
Merci pour cet article clair et précis.
Ce problème de duplicate content mérite effectivement de plus amples informations. Une question récurrente étant de savoir si un site internet ayant plusieurs noms de domaines pointant vers une seule url peut être victime de duplicate content… Toujours pas trouvé de réponse claire à cette question…
Pour l’erreur N°2 ne peut-elle pas être solutionnée dans le .htaccess ?
Artemia > Si :).
Excellent article. Pour le N.2 je ne savais pas.
Merci pour l’info. Reste à faire un article sur la gestion des sous-domaines… encore floue pour moi !
Salut,
perso j’essaie de resoudre le n°2 en htaccess j’ai que des problèmes! ca ne crée pas une sorte de boucle infinie?
généralement un htaccess c’est: nompage1.html nompage2.html [parametres]
mais comme il s’agit de la racine, que mettre en nompage2?
merci
Merci pour l’info. Je pense que cela est bien sur aussi valable pour ce qui pointe directement sur un sous-répertoire ayant une page d’entrée à index.htm ou php.
D’abord merci pour tous ces conseils.
Concernant le point numéro deux. Je me demande une chose.
Ce genre d’erreur ne se limite probablement pas à la page d’accueil.
J’ai par exemple des pages de langues étrangères ou deux Urls sont référencées pour le même contenu
http://www.example.com/UK/
et
http://www.example.com/UK/index.php
En fait il me semble qu’à chaque fois qu’on créé une page sur un index (accueil ou pas) il faut ensuite faire très attention à ne pas se planter autant dans les lien internes que dans les liens externes.
JJhalin, j’ai effectivement rencontré ce problème de boucle: une redirection simple ne suffit pas.
Il faut écrire les lignes suivantes dans le fichier .htaccess pour Apache:
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.htm\ HTTP/ RewriteRule ^index\.htm$ http://www.example.com/ [R=301,L]Source intéressante sur le sujet: http://www.webmasterwoman.com/design-development/redirect-homepage.html
Sinon, je rencontre un autre cas de duplicate content dans le cas d’un site multilingue avec détection automatique de la langue: voir mon post sur d’autres problèmes de duplicate content
excellent article
et ben il y a du pain sur la planche !!
et hop au boulot!
bravo et merci
Et quelles sont les conséquences en termes de réferencement pour un contenu dupliqué ?
Ou en effet , j’etait en index.html mais j’ai un index.php maintenant, j’ai effacé le index.html mais il me redirige sur une autre page en .html sur la racine du site, donc tans pis maintenant j’ai remis l’index.html qui fait une redirection sur le l’index.php, bof on verra bien !!!
Salut woof! merci pour l’info
Malheureusement j’ai testé ce code, et ca ne fait rien du tout! g pris soin de modifier le htm en php pour mes pages, mais rien n’a changé. on accede toujours a index.php sans etre redirigé.
a+
A ajouter aussi les urls de page d’impression ou de l’article sous un autre format word, pdf
Reprise aussi parfois des articles sur une page commentaire.
Bonjour,
merci pour ce précieux article ;)
Concernant les redirections j’ai apporté une petite modif’ permettant d’appeler plusieurs fois cette fonction dans la même page dans le cas de sites dynamiques.
function redirection_301_si_besoin($url_envoyee,$url_attendue) { if ($_SERVER['REQUEST_URI'] == $url_envoyee) { header("Status: 301 Moved Permanently", false, 301); header("Location: http://www.example.com".$url_attendue); exit; } }Ainsi on peut faire la comparaison entre l’url envoyée et l’url attendue :) .