Duplicate content et référencement : impact et solutions
Par Olivier Duffez
, Lundi 28 septembre 2009
Bien souvent on lit que Google pénalise un site pour cause de contenus dupliqués et ce type de déclaration fait parfois débat. En réalité les choses sont plus complexes que cela : il serait peut-être plus juste de dire que le contenu dupliqué handicape le référencement d'un site et que dans certains cas (overdose ?) le filtre de Duplicate Content applique une sanction. Cet article tente de clarifier les choses sur ces fameux duplicate content ("DC" pour les intimes)...
Qu'est-ce que le contenu dupliqué ?
On parle de contenu dupliqué dès lors qu'un même contenu (indexable par les moteurs) est trouvable à plusieurs endroits sur le web. L'adresse de ces contenus étant l'URL, on parle de contenu dupliqué dès lors qu'un même contenu est accessible à plusieurs URL.
En théorie donc, s'il y a la moindre différence entre 2 URL qui permettent pourtant d'accéder au même contenu, alors il y a duplication de contenus.
En pratique, il y a des exceptions, des cas particuliers, et donc des écarts entre le discours officiel de Google et la réalité :
- Google prétend qu'on peut passer les paramètres dans l'ordre que l'on veut
- Google prétend reconnaître les deux formes d'URL d'un même contenu, avec et sans réécriture d'URL
- Google prétend reconnaître certains paramètres de tracking et les ignorer
- Google prétend détecter les variables de session
En réalité Google n'est pas toujours aussi fort qu'il prétend l'être, et je conseille fortement de ne pas compter sur ça. Faites en sorte qu'il n'y ait pas de contenus dupliqués avec votre site et votre référencement s'en portera mieux :-)
Pourquoi les moteurs luttent-ils contre les contenus dupliqués ?
Pour eux d'abord, crawler et indexer de très nombreux contenus en doublons coûte cher et fait perdre du temps qui pourrait être mieux utilisé pour gérer d'autres contenus sur le web.
Pour leurs utilisateurs également, afin qu'ils n'aient pas plusieurs fois le même contenu listé parmi les résultats proposés par le moteur. Il est en effet bien plus intéressant pour les internautes d'avoir une variété de résultats, du choix.
Quelles sont les pénalités associées au contenu dupliqué ?
Dans la majorité des cas : pas de pénalité
Dans la grande majorité des cas, les moteurs ne pénalisent pas en raison de contenus dupliqués. Cela concerne par exemple toutes les causes de contenus dupliqués non intentionnelles. Par contre si Google se rend compte que la duplication de contenu est intentionnelle et va à l'encontre de ses règles, il peut pénaliser le site. Voici ce qu'indique Google à ce sujet :
Dans les rares cas où nous estimons que du contenu en double est peut-être affiché dans le but de manipuler nos classements et de tromper nos utilisateurs, nous apportons également les ajustements appropriés dans l'indexation et le classement des sites impliqués. En conséquence, le classement du site peut être affecté, ou le site peut être retiré définitivement de l'index Google, auquel cas il n'apparaîtra plus dans les résultats de recherche.
Le contenu en double n'entraîne pas de conséquences négatives particulières pour votre site sauf si l'objectif semble être de tromper et de manipuler les résultats des moteurs de recherche. Cependant, si nous estimons qu'il s'agit de pratiques trompeuses et retirons en conséquence votre site de nos résultats de recherche, revoyez votre site.
Les cas avérés où le contenu dupliqué pénalise les sites
Il existe cependant des cas où le contenu dupliqué, détecté par Google, se révèle être la source de problèmes de visibilité dans Google. Il s'agit des sites qui republient du contenu déjà publié ailleurs sur le web. Ca peut être des agrégateurs, des annuaires, des sites "classiques"...
C'est en quelque sorte l'autre vision du contenu dupliqué ! En effet, en règle générale ceux qui éditent ces sites savent bien que le contenu disponible sur leur site n'est pas unique (original) et que par conséquence ils prennent le risque d'être considérés par Google comme de "simples copies".
Vu comme ça, les choses semblent "carrées" mais en réalité c'est plus subtil que ça... malheureusement. En effet, nous sommes nombreux à avoir remarqué que Google est passé de la détection de contenus dupliqués au niveau site (les clones de DMOZ ont disparu des pages de résultats depuis des années) à la détection au niveau page et parfois même bout de page (quelques phrases).
Est-il normal que Google pénalise les sites qui créent de la valeur à partir de contenus déjà publiés ailleurs ? Un agrégateur, un annuaire ou un comparateur doit-il être pénalisé sous prétexte que sa "matière première" est déjà accessible ailleurs sur le web ? Je ne pense pas qu'il existe une réponse tranchée, ça dépend des cas...
Mise à jour de l'article (22/03/2010) : à ce sujet vous devriez lire le dossier complet sur le filtre de contenus dupliqués mis au point par Google.
Quoi qu'il en soit je referme cette parenthèse et rappelle au passage que mon tout 1er conseil en référencement publié au lancement de WebRankInfo en 2002 était d'avoir sur son site du contenu unique, original.
Pourquoi faut-il éviter le contenu dupliqué ? En quoi constitue-t-il un handicap pour le référencement ?
Voici les 3 principales raisons pour lesquelles vous devez malgré tout faire en sorte qu'il n'y ait pas de contenus dupliqués sur votre site ainsi que sur le reste du web :
- Vous vous éparpillez en diluant votre popularité : quand un contenu reçoit plusieurs backlinks mais pointant vers des URL différentes, vous éparpillez vos efforts de référencement. En effet, vous avez bien travaillé votre contenu, vous savez que la différence va se jouer sur les liens (backlinks). Alors pourquoi ne pas tous les concentrer en un même lieu ? Avec le contenu dupliqué, vous allez être moyen (voire mauvais) sur plusieurs URL au lieu d'être bon sur une seule.
- Vous diminuez vos chances de faire indexer rapidement et fréquemment vos contenus : en générant plusieurs URL pour chaque contenu, vous demandez un surcroit de travail aux robots (Googlebot par exemple), si bien que vous risquez d'avoir certaines pages non crawlées (et donc non indexées) ou alors crawlées tardivement.
- Vous faites apparaître à vos utilisateurs des URL inutilement complexes. Peut-être que cela freinera certains à cliquer dans les pages de résultats ? Peut-être que cela en freinera d'autres à vous faire des liens ? Ou peut-être que dans certains cas vos URL complexes seront mal interprétées ou tronquées, ce qui au final ne vous apportera pas de bon lien ?
Les causes de contenus dupliqués
Quelles sont les erreurs classiques de contenus dupliqués internes et externes ?
Je vous renvoie à un autre de mes articles qui détaille les erreurs les plus courantes de contenus dupliqués et fournit les solutions :
- indexation d'un site avec et sans www
- plusieurs URL pour la page d'accueil
- plusieurs URL pour la page 1 (listings avec pagination)
- conserver les anciennes URL sans redirection après mise en place de la réécriture d'URL
- avoir plusieurs noms de domaine indexés pour un même site
- ne pas passer les paramètres dans l'URL toujours dans le même ordre
- utiliser parfois des paramètres optionnels dans les URL
- etc.
La reprise de contenu (partielle ou pas), cause de DC
Une autre source de duplication de contenus est la reprise de vos contenus par d'autres sites. Parfois vous êtes au courant et avez donc autorisé cette reprise, mais bien souvent vous n'êtes pas au courant.
Pour que cette duplication partielle de contenus ne soit pas un problème pour votre référencement, il faut vous assurer que les conditions suivantes sont toutes remplies :
- la quantité de texte reprise doit être très faible (quelques lignes maximum)
- la source doit être indiquée clairement, avec un lien vers votre page (pas vers votre page d'accueil... et pas en nofollow...)
- la page qui reprend votre contenu utilise une balise title et une balise meta description différentes des vôtres
Le plagiat, autre cause de contenus dupliqués
Avec le plagiat ou le vol de contenu, les problèmes de contenus dupliqués sont encore plus grands, surtout si la quantité de texte reprise est importante. En outre vous avez de très bonnes raisons de vous fâcher, vos droits d'auteur n'étant pas respectés.
Je vous invite à lire ces articles sur ce sujet : celui de Cyril Rimbaud (alias Cyroul) et celui de Sylvain d'Axe Net. On discute aussi des problèmes de plagiat sur le forum WRI.
Comment résoudre les problèmes de contenus dupliqués ?
Tout d'abord, assurez-vous d'avoir corrigé toutes les erreurs listées précédemment. Ensuite, consultez les conseils ci-après.
Ayez de la rigueur dans la définition de l'URL des pages
D'une manière générale, soyez le plus rigoureux possible pour toujours affecter exactement la même URL à un contenu donné. Mettre en place la réécriture d'URL impose souvent une telle rigueur et rien que pour ça je conseille sa mise en place. Sur un site dynamique, dans vos scripts, créez des fonctions qui retournent l'URL d'une page donnée en fonction d'un certain nombre de paramètres : ainsi vous centralisez à un seul endroit dans votre code la définition de l'URL de la page en question.
Maniez les paramètres de tracking avec précaution
Si vous utilisez avec recours au tracking pour mesurer l'efficacité de vos campagnes emarketing (affiliation, parrainages, partenariats, achat de liens sponsorisés, tracking des flux RSS, etc.), vérifiez de quelle façon vous utilisez vos variables de tracking.
Par défaut on ajoute souvent ces variables à la fin de l'URL après le signe ? comme par exemple produit.php?origin=1234. Le problème est que cette méthode génère du contenu dupliqué car pour les moteurs la page produit.php?origin=1234 n'est a priori pas la même que la page produit.php...
Une des solutions est d'utiliser le signe # au lieu de ? pour passer ces paramètres. Assurez-vous que cette méthode soit compatible avec votre gestion interne du tracking ainsi qu'avec votre outil de mesure d'audience. Si vous utilisez Google Analytics, nous l'expliquons en formation ;-) (mais sinon lisez l'aide en ligne).
Définissez les paramètres d'URL à ignorer dans votre compte GWT
Une autre solution est de définir vos paramètres optionnels et de tracking dans Google Webmaster Tools.
Redirigez en 301 les URL non officielles vers l'URL officielle (canonique)
Une autre solution est de toujours rediriger de façon permanente (redirection code 301) les URL avec des paramètres de tracking vers les URL canoniques associées.
Si vous avez du mal à appliquer cette méthode sur votre site, inscrivez-vous à ma formation, on aborde le sujet de la duplication de contenus et des redirections en détails (module : duplicate content et référencement) ; vous pourrez poser vos questions en direct aux formateurs, y compris des questions personnalisées en rapport direct avec votre site.
Utilisez les cookies
Enfin, sur votre site, utilisez plutôt les cookies que l'URL pour passer des paramètres associées aux utilisateurs, sinon vous prenez le risque de générer du contenu dupliqué.
Utilisez des fichiers sitemaps
Si Google trouve 2 URL pour une même page de votre site et que l'une d'entre elles figure dans un sitemap mais pas l'autre, alors Google sélectionnera plus facilement celle qui figure dans le sitemap.
Utilisez la balise link rel=canonical (canonicalisation)
J'aborde cette solution en dernier car elle a été introduite après les autres, mais c'est pourtant sans doute la plus simple à mettre en place. Le principe est d'indiquer page par page aux moteurs quelle est l'URL officielle (appelée URL canonique d'où le terme canonicalisation).
Imaginons par exemple que vous ayez une page décrivant un de vos produits ("A") et que son URL (officielle) soit celle-ci :
http://www.example.com/produits/a.php
Pour de multiples raisons, il est possible que des internautes consultent cette fiche produit en utilisant une autre URL :
http://www.example.com/produits/a.php?affilie=45124
http://www.example.com/produits/a.php?couleur=rouge
Sur toutes ces pages, il vous suffit d'insérer dans l'entête HTML la ligne suivante :
<link rel="canonical" href="http://www.example.com/produits/a.php">
Et pour Google et les autres moteurs qui tiennent compte de cette balise, toutes ces URL seront fusionnées, seule l'URL officielle désignée par vos soins sera présentée dans les résultats. Elle bénéficiera de la popularité cumulée de toutes ces URL.
Obtenir de l'aide pour corriger votre duplicate content
Conseils en français pour résoudre vos problèmes de contenus dupliqués
Venez en discuter sur le forum WebRankInfo !
Si cela ne suffit pas, inscrivez-vous à ma formation, on aborde le sujet de la duplication de contenus en détails et vous pourrez poser vos questions en direct aux formateurs, y compris des questions personnalisées en rapport direct avec votre site. Voici un extrait du programme de la formation sur les sites dynamiques :
- Optimiser le référencement d'un site dynamique
- Solutions aux erreurs les plus courantes : identifiants de session, formulaires, JavaScript, AJAX, Flash, frames
- Savoir faire indexer tout le site rapidement, même les pages les plus profondes
- Anticiper et résoudre tous les problèmes de contenus dupliqués (duplicate content)
- Guide de la réécriture d'URL (URL Rewriting) sous Apache : explications et exemples
- Optimisation complète des pages dynamiques (titres, contenus, liens, etc.)
- Exemples : référencement de site marchand, référencement de site d'actualité
Conseils de Google en vidéo (en anglais)
Voici des conseils de Greg Grothaus, ingénieur chez Google, issus de cet article :
On a dans le forum WebRankInfo une discussion qui rassemble les bonnes idées pour résoudre les problèmes liés aux contenus dupliqués.
Consultez également les slides de sa présentation ici (au format Google Docs). Notez que c'est loin d'être la première fois que Google aborde ce sujet : en 2006 (Deftly dealing with duplicate content), en 2007 (Duplicate content summit at SMX Advanced et Google, duplicate content caused by URL parameters, and you) et en 2008 (Duplicate content due to scrapers et Demystifying the "duplicate content penalty").
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
55 commentaires
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
Catégories des dossiers
- Actualité
- Android
- Autres produits Google
- Brèves
- Conseils référencement
- Débuter en référencement
- Droit et Internet
- e-marketing
- Ecrire pour le web et le référencement
- Gmail
- Google AdSense
- Google AdWords
- Google Analytics
- Google Chrome
- Google Images
- Google Labs
- Google Maps
- Google Mobile
- Google News
- Google Search
- Google Toolbar
- Google Webmaster Tools
- Google+
- Indexation Google
- L'entreprise Google
- Les API de Google
- Livres sur le référencement et les moteurs de recherche
- Outils
- PageRank
- R&D référencement
- Ranking Metrics
- Référencement Bing
- Référencement des images
- Référencement et PHP
- Référencement local
- Référencement Yahoo
- Référencement Yandex
- Réseaux sociaux
- Sitemaps
- Stratégies de liens
- Stratégies de mots-clés
- Techniques de référencement
- Webmastering
- WebRankInfo
- YouTube



28 septembre 2009 à 13:15
Félicitations pour cet article très détaillé, mais amha 99% des pbs proviennent de la mauvaise utilisation d'un cms ou alors du plagiat/scrapping, ce qui est évidemment plus difficile à corriger dans ce dernier cas. Ajouter des liens internes contextuels (avec url absolue :) ) dans ses articles (en dehors d'autres considérations de ref.) fonctionne parfois avec certains scrappers pressés ou pas vraiment codeurs de métier.
28 septembre 2009 à 13:50
Bonjour Olivier,
tout d'abord merci pour cet article qui éclairci le mystère qui est le duplicate content :p
par contre j'ai une question, si une page de son site est victime de duplicate content, est ce que google pénalise l'ensemble du site ou seulement la page fautive?
Merci d'avance pour ta réponse
28 septembre 2009 à 18:17
@ Jonathan : si le site est "victime" je suppose que ça veut dire qu'un autre site l'a recopié ?
En tout cas c'est page par page
28 septembre 2009 à 18:31
En fait, j'ai fait la bêtise de recopier le contenu d'une des pages de mon site sur un site du style quefaire.be... Donc je crois que le mieux que j'ai à faire est de modifier le contenu de ma page.
C'était avant que j'apprenne ce qu'était le duplicate content,... Grâce à WRI, j'ai vraiment appris pas mal de chose ;)
28 septembre 2009 à 19:38
Le duplicate content n'entraine aucune pénalité ? Quels sont les tests que tu as effectué à ce sujet ? Que fais tu des sites sanctionnés pour cette cause, modifiés et qui sont repartis, simple coïncidence ?
Tu annonces donc que ceci est faux, il n'existe de pénalités pour cela, pourquoi, car la communication le dit ?
Un peu déçu de lire ceci alors que l'on a constaté depuis la mise en place de ce filtre par Google de nombreux cas ou le duplicate content s'avérait être la cause de la pénalité affligée aux sites ...
Très bon article cependant ;)
28 septembre 2009 à 20:59
Canonicalisation : un peu lourd !
Je propose canonisation, tout simplement.
28 septembre 2009 à 21:10
En effet L.Jee, bonne remarque. J'ai mis à jour mon article.
28 septembre 2009 à 21:13
c'est bien tenté mais la canonisation signifie complètement autre chose !
29 septembre 2009 à 6:43
Olivier, bon résumé :
Pour que cette duplication partielle de contenus ne soit pas un problème pour votre référencement, il faut vous assurer que les conditions suivantes sont toutes remplies :
* la quantité de texte reprise doit être très faible (quelques lignes maximum)
* la source doit être indiquée clairement, avec un lien vers votre page (pas vers votre page d'accueil… et pas en nofollow…)
* la page qui reprend votre contenu utilise une balise title et une balise meta description différentes des vôtres
on a malheureusement vu des sites originaux sauter même avec ces conditions ....
29 septembre 2009 à 9:00
Article très intéressant mais j'aurais aimé avoir votre opinion sur un point.
Supposons un site internet qui vend des écrans. Avec une rubrique "écran 17 pouces" qui contient 100 produits. On affiche 10 produits par pages donc 10 pages optimisées sur écran 17 pouces avec des urls réécrites (ecran-17.html ; ecran-17-p2.html...) Le but étant de faire découvrir tous les écrans 17 pouces aux moteurs.
Mais alors, est ce que ces 10 pages vont être considérées comme dupliquées du fait des optimisations similaires (title, description, h1...) ?
Merci pour votre retour et ceux des autres ;-)
29 septembre 2009 à 12:01
Merci pour ses informations de qualité.
29 septembre 2009 à 13:44
Bonjour,
Si une page contient du contenu avec plusieurs paragraphes copiés depuis plusieurs sites internet, es ce que cela est considéré comme une nouvelle page aux yeux de Google ? Ou es ce qu'on pourrait appelé ca du multi duplicate ;)
29 septembre 2009 à 14:11
Bonjour Olivier et vraiment merci pour la qualité de tes articles. J'utilise un bloc de tagscloud dont le lien url des tags est : http://www.monsite.com/search.php?search_query="mot clé du tag recherché". En revanche ma page a toujours le même titre (le nom de mon site). Est ce que cela pose un pb au niveau du référencement sachant que l'url de recherche est toujours différente ?
Merci
29 septembre 2009 à 14:33
@Sun Location : ça dépend des cas... j'ai déjà vu des cas où Google pénalise pour des cas où le contenu non original ne représente qu'une partie de la page (exemple : des comparateurs)
@Fred : ce genre de pages risque de ne pas avoir bcp de succès dans Google, surtout si le titre est toujours le même...
@Auto Dispo : en effet ces autres pages (2 et suivantes) n'ont pas grand intérêt pour le référencement. Peut-être faut-il afficher + de 10 produits par page
29 septembre 2009 à 18:58
Sujet intéressant. Merci Olivier pour tous ces eclaircissements.
Oui, l'internaute est vraiment envahi de contenus web semblables . Il arrive qu'une dizaine de pages web affiche la même "information". Quel intérêt pour l'internaute ? c'est pure perte de temps.
Attendre la réaction de Google pour résoudre ce problème risque de faire durer le mal encore plus longtemps. Il serait plutôt mieux que les éditeurs web prennent conscience de l'intérêt de proposer une information originale de qualité à leurs visiteurs. Un minimum d'étique jouera sûrement en faveur du référencement de leurs sites web.
30 septembre 2009 à 13:21
Bonjour Olivier,
Merci pour cet article qui résume bien les différentes problématiques posées par le duplicate content.
Je trouve intéressant que tu ailles à l'encontre d'une croyance encore dominante sur le DC...
Le Duplicate content interne n'est pas dangereux en soi mais plutôt source d'une mauvaise optimisation/sous optimisation du link juice interne...
A Bientôt,
1 octobre 2009 à 15:26
@Olivier Duffez : Merci d'avoir pris le temps de me donner votre avis sur ma question.
14 octobre 2009 à 8:13
Toute entreprise qui embauche des pirates pour polluer le web avec leurs (ou ses propres) virus, malwares et autres pour avoir plus de place dans la concurrence, c'est peut-etre rentable avec la vente d'anti-virus.
La propagation de duplicate content par contre, si elle avait auparavant un quelconque but commercial, avec le nouvel algorithme de détection c'est devenu de la pure stupidité qui fait perdre du temps aux auteurs des méfaits et qui aide sa concurrence.
Mais il faut du temps aux moteurs de recherche pour effectuer les nettoyages et mettre aux points des outils d'exclusion toujours plus performants.
5 novembre 2009 à 1:17
Prenez le cas de Dmoz : Un contenu de référence repris sur de nombreux sites. Selon votre définition, ce serait du DC pénalisable par GG ?
5 novembre 2009 à 15:54
si l'ensemble du site est basé sur un clone de DMOZ : oui le site risque d'être pénalisé
si c'est seulement une partie, alors cette partie risque de ne jamais apparaître dans Google. D'ailleurs ça fait des années que je ne vois plus de clone de DMOZ dans les résultats Google (mis à part le clone créé par Google !)
5 novembre 2009 à 16:05
Ok,
De notre côté, nous gérons de nombreux sites qui exploitent les contenus les uns des autres avec par exemple tous les produits des catalogues de sites clients repris dans un catalogue global d'un site "père".
Nous avons une très bonne indexation des fiches produits (qui sont donc quasi identiques) à la fois dans le site "père" et dans les sites clients. Souvent, même, pour un même nom de produit, le site client et le site père occupent les 2 premières places. Et ça peut se vérifier non pas sur un ou deux, mais sur des centaines d'exemples.
6 novembre 2009 à 11:53
Cela dépend du fait que les noms des produits recherchés soient plus ou moins concurrentiels, ça va de soi...
26 novembre 2009 à 20:17
Excellent article et très complet sur un sujet le "duplicate content" interprété illogiquement par Google suivant les cas.
6 mars 2010 à 10:18
Petit retour sur un site allemand dont je me suis occupé durant l'été : le site est passé de 6.000 visiteurs / jour à moins d'un millier à cause d'un contenu copié/collé depuis wikipedia. On a décidé de retravailler le contenu pour qu'il soit totalement unique.
Les résultats ont mis deux mois pour arriver, mais le site a retrouvé ses visiteurs, qui plus est, le taux de transformation a lui aussi également augmenté.
23 mars 2010 à 15:04
Merci pour cet article. Une question : comment Google met en application le filtre DC sur les annuaires ? Autrement dit pourquoi certains annuaires passent au travers des pénalités pour DC et d'autres non ?
24 mars 2010 à 16:15
Je reproduis 2 articles par mois de mon site (http://www.terre-des-thes.fr/) sur un blog à part (http://terre-des-thes.blogspot.com/) et sur une page Facebook (http://www.facebook.com/pages/Terre-des-Thes/109433721898).
Le contenu dupliqué n'est pas énorme comparé au site original. Mais est ce que mon site principal risque d'être pénalisé pour son référencement?
31 mars 2010 à 19:35
j'ai posté cette question sur le forum. Consultez la pour voir les réponses qui m'ont été rapportées:
http://forum.webrankinfo.com/duplicate-content-sur-blogspot-facebook-plus-site-principal-t125532.html#p1158033
31 mai 2010 à 10:43
Prenez le cas de Dmoz : Un contenu de référence repris sur de nombreux sites. Selon votre définition, ce serait du DC pénalisable par GG
2 juin 2010 à 5:55
Cela fait très longtemps que Google a créé un filtre qui empêche les clones de DMOZ d'apparaitre dans les résultats. Cela répond-il à la question ou la remarque ?
21 juin 2010 à 0:02
Je ne pense pas que Google pénalise tant que ça le DC car, comme vous l'avez souligné, il est très difficile pour le moteur de faire la différence entre le contenu dupliqué volontairement pour alimenter un agrégateur ou le contenu dupliqué pour générer du contenu facilement.
21 juin 2010 à 9:32
Apparemment tu n'as pas tout lu, notamment les témoignages... Bien sûr que si le DC peut pénaliser un site, Google incite de plus en plus à ce qu'on publie du contenu inédit ET de qualité.
1 juillet 2010 à 16:27
Je rejoins Olivier, mais le duplicate n'est pas un problème. Les multiples articles dupliqués (intelligemment, c est à dire en coupant ici ou là, en mettant des images hébergés chez soi etc...) permettent de relayer ses écrits sur de nombreux autres supports que son simple site internet.
L'afflux de visiteurs est réel, et je jus de PR est également compté.
Je ne pense pas me tromper
1 juillet 2010 à 17:06
Donc en fait tu ne me rejoins pas !!!
Je persiste à dire que le duplicate externe peut être un réel problème s'il est mal géré...
6 août 2010 à 8:03
Le contenu dupliqué est un réel problème pour les sites récents dont les articles sont repris partout sur le web. Ggle met toujours en avant les articles émanant de sites ayant un bon page rank et un bon trust rank. Je doute même qu'il s'atèle ultérieurement à rechercher la source originale. Une fois que Ggle a fait son choix on dirait qu'il n'en change plus ... si vous êtes le petit qui écrit les articles mais qui n'est pas choisi, alors c'est quand même dommage.
7 août 2010 à 13:20
Merci pour cet article. C'est très intéressant.
12 août 2010 à 12:30
j'ai vu des cas ou du duplicate content a complètement déclassé des sites (ex: footer bas de page trop long)
Merci pour votre article
26 août 2010 à 15:22
Bonjour,
Question de débutant : quand un site propose plusieurs profils d'utilisateurs sur sa page d'accueil, il se peut qu'un même contenu soit disponible plusieurs fois car reproduit dans plusieurs profils. Dans ce cas il dispose de plusieurs url ... Or, si je lis bien Google considérera ces pages comme des copies (sans trop s'énerver pour distinguer l'originale, mais ça me concerne moins).
Est-ce grave docteur ?
27 août 2010 à 9:06
C'est un problème si les différentes versions de la page d'accueil sont indexables.
Comment accède-t-on à une page avec profil utilisateur ? Il faut être connecté ? Ou simplement suivre un lien ?
Une des possibilités est d'utiliser la balise canonique.
18 septembre 2010 à 18:18
Bonjour,
Est-ce que copier le titre d'un article provenant d'un site extérieur pose un problème de DC ?
Est-ce que copier le titre de 10 articles différents provenant d'un même site extérieur (mais concernant des pages différentes) pose des problèmes de DC ?
Question subsidiaire (pour ceux ayant des notions en droit ^^): copier le titre d'un article est-il considéré comme du plagiat si ce même titre renvoit vers la page de l'article du site extérieur qd on clique dessus ?
merciii ;)
4 octobre 2010 à 14:08
très bon article, je suis tout à fait d'accord avec vous et je pense qu'il vaut mieux éviter le duplicate tout simplement.
3 novembre 2010 à 13:14
A priori Leslie Rodhe un des godfather du SEO dit que google n'a jamais vraiment rien dit au sujet du duplicate content et que pret de 60% du contenu sur Internet est déja du duplicate. (ce qui n'est pas faux)
C'est en anglais ici
3 novembre 2010 à 15:49
@sajoo : Que Google ne dise rien sur le duplicate content, ou même que Google dise que ça ne pose pas de problème pour le référencement, qu'est-ce que ça change quand on sait pertinemment quels effets négatifs le duplicate content peut avoir ?
1 décembre 2010 à 19:41
Bravo, pour cet article, lors de la refonte de notre site, je prendrais en compte la balise canonical
7 avril 2011 à 11:00
Très bon article. ;)
Même si dans la majorité des cas, le contenu dupliqué en interne (sur un même nom de domaine) n'entraîne pas de pénalité directe, il existe une pénalité indirecte.
Par exemple, mon contenu est tagé par trois mots clés. Je vais avoir donc trois fois le même contenu sur trois pages de tags. En faisant cela, je dilue la structure de mon site et la popularité. Plus je vais dupliqué un contenu, plus je vais m'infliger une pénalité. Il faut donc veiller à réduire au minimum cette duplication intere.
7 avril 2011 à 11:06
Merci Daniel. Tu fais bien d'insister sur le fait que les tags (ou les catégories) peuvent être une source de contenu dupliqué interne.
7 avril 2011 à 16:45
Je viens de finir un article, et je l'ai testé sur positeo, paafff: 60% de DC sur deux phrases alors que le texte vient tout droit de mes neurones, donc à refaire! Jusqu'à combien de % un DC peut-il être toléré par google selon vous?
8 avril 2011 à 10:12
On ne peut pas donner de conseils chiffrés sans dire avec quel outil ou avec quelle formule il faudrait le calculer !
Une façon de faire est de tester si des bouts de phrases se retrouvent ailleurs, mais ça ne suffit pas car si tout un texte est réécrit en changeant simplement quelques synonymes ou formes de mots, Google le repère un jour ou l'autre...
9 avril 2011 à 9:19
@Rédaction offshore
Il faut plus que 2 phrases identiques sur un texte entier pour que ça soit considéré comme DC ;)
19 avril 2011 à 4:36
J'ai eu beaucoup de succès en utilisant Copyscape de trouver theaves vole mon contenu pour que je puisse communiquer avec leur hôte et obtenir le contenu prises vers le bas. Je recommande vivement ce service très abordable.
12 mai 2011 à 12:55
Un autre moyen pour battre contre le vol du contenu est RSS qui permet de tracker le source initiale. Hélas, RSS ne conveint pas à mon site de photo, à contenu textuel plutôt faible ...
12 mai 2011 à 13:09
Je ne vois pas bien en quoi le RSS peut combattre le vol de contenu. J'ai déjà rencontré un concurrent qui utilise mon flux RSS en me mettant un affreux lien nofollow pour citer sa source, et je ne peux rien faire (il ne répond pas à mes mails et je n'arrive pas à identifier son serveur quand il vient crawler mon flux).
12 mai 2011 à 13:43
Je comprends qu'entre autres, RSS traçe la date de la sortie d'une nouvelle // une publication. Si par la suite le même contenu est publiée par qqn d'autre ailleurs, votre texte sera toujours considéré en tant qu'initial et original.
6 août 2011 à 10:43
Pour le commentaire juste au dessus: le flux RSS reprend la date et heure que vous avez entré sur votre article. Cette donnée est facilement modifiable sur un wordpress par exemple et hop le tour est joué le "voleur" de contenu peut faire croire qu'il a écrit son article avant vous...
3 novembre 2011 à 0:05
Bonjour,
Je voudrais savoir lorsque je copie une page a vers b , je mets la balise canonical sur b, je change l'url, je change la balise title, la balise meta decription, la balise h1. Pensez vous que je serai mieux referencé ?
3 novembre 2011 à 16:11
Vaudrait mieux poser ce genre de question dans le forum... d'ailleurs je n'ai pas bien compris l'intérêt de ta méthode (ou la question)