Article mis à jour le 28/09/2015, publié initialement le 28/09/2009
Qu'est-ce que le contenu dupliqué ?
Définition
On parle de contenu dupliqué dès lors qu'un même contenu (indexable par les moteurs) est trouvable à plusieurs endroits sur le web. L'adresse de ces contenus étant l'URL, on parle de contenu dupliqué dès lors qu'un même contenu est accessible à plusieurs URL.
En théorie donc, s'il y a la moindre différence entre 2 URL qui permettent pourtant d'accéder au même contenu, alors il y a duplication de contenus.
En pratique, il y a des exceptions, des cas particuliers, et donc des écarts entre le discours officiel de Google et la réalité :
- Google prétend qu'on peut passer les paramètres dans l'ordre que l'on veut
- Google prétend reconnaître les deux formes d'URL d'un même contenu, avec et sans réécriture d'URL
- Google prétend reconnaître certains paramètres de tracking et les ignorer
- Google prétend détecter les variables de session
En réalité Google n'est pas toujours aussi fort qu'il prétend l'être, et je conseille fortement de ne pas compter sur ça. Faites en sorte qu'il n'y ait pas de contenus dupliqués avec votre site et votre référencement s'en portera mieux :-)
Pourquoi les moteurs luttent-ils contre les contenus dupliqués ?
Pour eux d'abord, URL et indexer de très nombreux contenus en doublons coûte cher et fait perdre du temps qui pourrait être mieux utilisé pour gérer d'autres contenus sur le web.
Pour leurs utilisateurs également, afin qu'ils n'aient pas plusieurs fois le même contenu listé parmi les résultats proposés par le moteur. Il est en effet bien plus intéressant pour les internautes d'avoir une variété de résultats, du choix.
Brevet de Google sur le contenu dupliqué
En janvier 2007, Google a obtenu un brevet sur les calculs de URL qui pourraient servir à la détection de contenu dupliqué. Voici le résumé :
Un moteur de similarité génère des représentations compactes d'objets appelées esquisses. Les esquisses de différents objets peuvent être comparées pour déterminer la similitude entre les deux objets. L'esquisse pour un objet peut être générée en créant un vecteur correspondant à l'objet, chaque coordonnée du vecteur étant associée à un poids correspondant. Le poids associé à chaque coordonnée dans le vecteur est multiplié par un vecteur de hachage prédéterminé pour générer un vecteur de produit, et les vecteurs de produit sont additionnés. Le moteur de similarité peut ensuite générer une représentation compacte de l'objet basée sur le vecteur produit sommé.
En gros, la méthode identifie chaque document (page web) à analyser avec un vecteur, puis effectue des produits vectoriels pour comparer les URL entre eux. Pour les curieux qui souhaitent mieux comprendre sur quoi Google se base, il suffit
de lire la description complète du brevet...
Quelles sont les pénalités associées au contenu dupliqué ?
Dans la majorité des cas : pas de pénalité
Dans la grande majorité des cas, les moteurs ne pénalisent pas en raison de contenus dupliqués. Cela concerne par exemple toutes les causes de contenus dupliqués non intentionnelles. Par contre si Google se rend compte que la duplication de contenu est intentionnelle et va à l'encontre de ses règles, il peut pénaliser le site. Voici ce qu'indique Google à ce sujet :
Dans les rares cas où nous estimons que du contenu en double est peut-être affiché dans le but de manipuler nos classements et de tromper nos utilisateurs, nous apportons également les ajustements appropriés dans l'indexation et le classement des sites impliqués. En conséquence, le classement du site peut être affecté, ou le site peut être retiré définitivement de l'index Google, auquel cas il n'apparaîtra plus dans les résultats de recherche.
Le contenu en double n'entraîne pas de conséquences négatives particulières pour votre site sauf si l'objectif semble être de tromper et de manipuler les résultats des moteurs de recherche. Cependant, si nous estimons qu'il s'agit de pratiques trompeuses et retirons en conséquence votre site de nos résultats de recherche, revoyez votre site.
Les cas avérés où le contenu dupliqué pénalise les sites
Il existe cependant des cas où le contenu dupliqué, détecté par Google, se révèle être la source de problèmes de visibilité dans Google. Il s'agit des sites qui republient du contenu déjà publié ailleurs sur le web. Ca peut être des URL, des URL, des sites "classiques"...
C'est en quelque sorte l'autre vision du contenu dupliqué ! En effet, en règle générale ceux qui éditent ces sites savent bien que le contenu disponible sur leur site n'est pas unique (original) et que par conséquence ils prennent le risque d'être considérés par Google comme de "simples copies".
Vu comme ça, les choses semblent "carrées" mais en réalité c'est plus subtil que ça... malheureusement. En effet, nous sommes nombreux à avoir remarqué que Google est passé de la détection de contenus dupliqués au niveau site (les clones de DMOZ ont disparu des pages de résultats depuis des années) à la détection au niveau page et parfois même bout de page (quelques phrases).
Est-il normal que Google pénalise les sites qui créent de la valeur à partir de contenus déjà publiés ailleurs ? Un URL, un annuaire ou un comparateur doit-il être pénalisé sous prétexte que sa "matière première" est déjà accessible ailleurs sur le web ? Je ne pense pas qu'il existe une réponse tranchée, ça dépend des cas...
A ce sujet vous devriez lire le dossier complet sur le filtre de contenus dupliqués mis au point par Google.
Pourquoi faut-il éviter le contenu dupliqué ? En quoi constitue-t-il un handicap pour le référencement ?
Voici les 3 principales raisons pour lesquelles vous devez malgré tout faire en sorte qu'il n'y ait pas de contenus dupliqués sur votre site ainsi que sur le reste du web :
- Vous vous éparpillez en diluant votre popularité : quand un contenu reçoit plusieurs backlinks mais pointant vers des URL différentes, vous éparpillez vos efforts de référencement. En effet, vous avez bien travaillé votre contenu, vous savez que la différence va se jouer sur les liens (backlinks). Alors pourquoi ne pas tous les concentrer en un même lieu ? Avec le contenu dupliqué, vous allez être moyen (voire mauvais) sur plusieurs URL au lieu d'être bon sur une seule.
- Vous diminuez vos chances de faire indexer rapidement et fréquemment vos contenus : en générant plusieurs URL pour chaque contenu, vous demandez un surcroit de travail aux robots (Googlebot par exemple), si bien que vous risquez d'avoir certaines pages non crawlées (et donc non indexées) ou alors crawlées tardivement.
- Vous faites apparaître à vos utilisateurs des URL inutilement complexes. Peut-être que cela freinera certains à cliquer dans les pages de résultats ? Peut-être que cela en freinera d'autres à vous faire des liens ? Ou peut-être que dans certains cas vos URL complexes seront mal interprétées ou tronquées, ce qui au final ne vous apportera pas de bon lien ?
Les causes de contenus dupliqués
Quelles sont les erreurs classiques de contenus dupliqués internes et externes ?
Je vous renvoie à un autre de mes articles qui détaille les erreurs les plus courantes de contenus dupliqués et fournit les solutions :
- indexation d'un site avec et sans www
- plusieurs URL pour la page d'accueil
- plusieurs URL pour la page 1 (listings avec pagination)
- conserver les anciennes URL sans redirection après mise en place de la réécriture d'URL
- avoir plusieurs noms de domaine indexés pour un même site
- ne pas passer les paramètres dans l'URL toujours dans le même ordre
- utiliser parfois des paramètres optionnels dans les URL
- etc.
La reprise de contenu (partielle ou pas), cause de DC
Une autre source de duplication de contenus est la reprise de vos contenus par d'autres sites. Parfois vous êtes au courant et avez donc autorisé cette reprise, mais bien souvent vous n'êtes pas au courant.
Pour que cette duplication partielle de contenus ne soit pas un problème pour votre référencement, il faut vous assurer que les conditions suivantes sont toutes remplies :
- la quantité de texte reprise doit être très faible (quelques lignes maximum)
- la source doit être indiquée clairement, avec un lien vers votre page (pas vers votre page d'accueil... et pas en nofollow...)
- la page qui reprend votre contenu utilise une balise title et une balise meta description différentes des vôtres
Le plagiat, autre cause de contenus dupliqués
Avec le URL ou le vol de contenu, les problèmes de contenus dupliqués sont encore plus grands, surtout si la quantité de texte reprise est importante. En outre vous avez de très bonnes raisons de vous fâcher, vos droits d'auteur n'étant pas respectés.
Comment résoudre les problèmes de contenus dupliqués ?
Tout d'abord, assurez-vous d'avoir corrigé toutes les erreurs listées précédemment. Ensuite, consultez les conseils ci-après.
Ayez de la rigueur dans la définition de l'URL des pages
D'une manière générale, soyez le plus rigoureux possible pour toujours affecter exactement la même URL à un contenu donné. Mettre en place la réécriture d'URL impose souvent une telle rigueur et rien que pour ça je conseille sa mise en place. Sur un site dynamique, dans vos scripts, créez des fonctions qui retournent l'URL d'une page donnée en fonction d'un certain nombre de paramètres : ainsi vous centralisez à un seul endroit dans votre code la définition de l'URL de la page en question.
Maniez les paramètres de tracking avec précaution
Si vous utilisez avec recours au tracking pour mesurer l'efficacité de vos campagnes emarketing (affiliation, parrainages, partenariats, achat de URL sponsorisés, tracking des flux RSS, etc.), vérifiez de quelle façon vous utilisez vos variables de tracking.
Par défaut on ajoute souvent ces variables à la fin de l'URL après le signe ?
comme par exemple produit.php?origin=1234
. Le problème est que cette méthode génère du contenu dupliqué car pour les moteurs la page produit.php?origin=1234
n'est a priori pas la même que la page produit.php
...
Une des solutions est d'utiliser le signe #
au lieu de ?
pour passer ces paramètres. Assurez-vous que cette méthode soit compatible avec votre gestion interne du tracking ainsi qu'avec votre outil de mesure d'audience. Si vous utilisez URL, nous l'expliquons en formation ;-) (mais sinon lisez l'aide en ligne).
Définissez les paramètres d'URL à ignorer dans votre compte GWT
Une autre solution est de définir vos paramètres optionnels et de tracking dans Google Webmaster Tools.
Redirigez en 301 les URL non officielles vers l'URL officielle (canonique)
Une autre solution est de toujours rediriger de façon permanente (redirection code 301) les URL avec des paramètres de tracking vers les URL canoniques associées.
Si vous avez du mal à appliquer cette méthode sur votre site, inscrivez-vous à ma formation, on aborde le sujet dans le module principal sur le référencement ; vous pourrez poser vos questions en direct aux formateurs, y compris des questions personnalisées en rapport direct avec votre site.
Utilisez les cookies
Enfin, sur votre site, utilisez plutôt les cookies que l'URL pour passer des paramètres associées aux utilisateurs, sinon vous prenez le risque de générer du contenu dupliqué.
Utilisez des fichiers sitemaps
Si Google trouve 2 URL pour une même page de votre site et que l'une d'entre elles figure dans un sitemap mais pas l'autre, alors Google sélectionnera plus facilement celle qui figure dans le sitemap.
Utilisez la balise link rel=canonical (canonicalisation)
J'aborde cette solution en dernier car elle a été introduite après les autres, mais c'est pourtant sans doute la plus simple à mettre en place. Le principe est d'indiquer page par page aux moteurs quelle est l'URL officielle (appelée URL canonique d'où le terme canonicalisation).
Imaginons par exemple que vous ayez une page décrivant un de vos produits ("A") et que son URL (officielle) soit celle-ci :
https://www.example.com/produits/a.php
Pour de multiples raisons, il est possible que des internautes consultent cette fiche produit en utilisant une autre URL :
https://www.example.com/produits/a.php?affilie=45124
https://www.example.com/produits/a.php?couleur=rouge
Sur toutes ces pages, il vous suffit d'insérer dans l'entête HTML la ligne suivante :
<link rel="canonical" href="http://www.example.com/produits/a.php">
Et pour Google et les autres moteurs qui tiennent compte de cette balise, toutes ces URL seront fusionnées, seule l'URL officielle désignée par vos soins sera présentée dans les résultats. Elle bénéficiera de la popularité cumulée de toutes ces URL.
Obtenir de l'aide pour corriger votre duplicate content
Conseils en français pour résoudre vos problèmes de contenus dupliqués
Venez en discuter sur le forum WebRankInfo !
On a dans le forum WebRankInfo une discussion qui rassemble les bonnes idées pour résoudre les problèmes liés aux contenus dupliqués.
Notez que c'est loin d'être la première fois que Google aborde ce sujet : en 2006 (Deftly dealing with duplicate content), en 2007 (Duplicate content summit at SMX Advanced et Google, duplicate content caused by URL parameters, and you) et en 2008 (Duplicate content due to scrapers et Demystifying the "duplicate content penalty").
Très bon article, merci beaucoup ;)
Comment par exemple éviter un DC au moins partiel sur un annuaire qui référence 50 annuaires dont les descriptions sont très voisine... c'est impossible à moins de remplir les descriptions de bavardages inutiles qui ne sont souvent jamais lu par les visiteurs.
Bonjour,
Je voudrais savoir lorsque je copie une page a vers b , je mets la balise canonical sur b, je change l'url, je change la balise title, la balise meta decription, la balise h1. Pensez vous que je serai mieux referencé ?
Vaudrait mieux poser ce genre de question dans le forum... d'ailleurs je n'ai pas bien compris l'intérêt de ta méthode (ou la question)
Pour le commentaire juste au dessus: le flux RSS reprend la date et heure que vous avez entré sur votre article. Cette donnée est facilement modifiable sur un wordpress par exemple et hop le tour est joué le "voleur" de contenu peut faire croire qu'il a écrit son article avant vous...
Je comprends qu'entre autres, RSS traçe la date de la sortie d'une nouvelle // une publication. Si par la suite le même contenu est publiée par qqn d'autre ailleurs, votre texte sera toujours considéré en tant qu'initial et original.
Un autre moyen pour battre contre le vol du contenu est RSS qui permet de tracker le source initiale. Hélas, RSS ne conveint pas à mon site de photo, à contenu textuel plutôt faible ...
Je ne vois pas bien en quoi le RSS peut combattre le vol de contenu. J'ai déjà rencontré un concurrent qui utilise mon flux RSS en me mettant un affreux lien nofollow pour citer sa source, et je ne peux rien faire (il ne répond pas à mes mails et je n'arrive pas à identifier son serveur quand il vient crawler mon flux).
J'ai eu beaucoup de succès en utilisant Copyscape de trouver theaves vole mon contenu pour que je puisse communiquer avec leur hôte et obtenir le contenu prises vers le bas. Je recommande vivement ce service très abordable.
@Rédaction offshore
Il faut plus que 2 phrases identiques sur un texte entier pour que ça soit considéré comme DC ;)
Je viens de finir un article, et je l'ai testé sur positeo, paafff: 60% de DC sur deux phrases alors que le texte vient tout droit de mes neurones, donc à refaire! Jusqu'à combien de % un DC peut-il être toléré par google selon vous?
On ne peut pas donner de conseils chiffrés sans dire avec quel outil ou avec quelle formule il faudrait le calculer !
Une façon de faire est de tester si des bouts de phrases se retrouvent ailleurs, mais ça ne suffit pas car si tout un texte est réécrit en changeant simplement quelques synonymes ou formes de mots, Google le repère un jour ou l'autre...
Très bon article. ;)
Même si dans la majorité des cas, le contenu dupliqué en interne (sur un même nom de domaine) n'entraîne pas de pénalité directe, il existe une pénalité indirecte.
Par exemple, mon contenu est tagé par trois mots clés. Je vais avoir donc trois fois le même contenu sur trois pages de tags. En faisant cela, je dilue la structure de mon site et la popularité. Plus je vais dupliqué un contenu, plus je vais m'infliger une pénalité. Il faut donc veiller à réduire au minimum cette duplication intere.
Merci Daniel. Tu fais bien d'insister sur le fait que les tags (ou les catégories) peuvent être une source de contenu dupliqué interne.
Bravo, pour cet article, lors de la refonte de notre site, je prendrais en compte la balise canonical
A priori Leslie Rodhe un des godfather du SEO dit que google n'a jamais vraiment rien dit au sujet du duplicate content et que pret de 60% du contenu sur Internet est déja du duplicate. (ce qui n'est pas faux)
C'est en anglais ici
@sajoo : Que Google ne dise rien sur le duplicate content, ou même que Google dise que ça ne pose pas de problème pour le référencement, qu'est-ce que ça change quand on sait pertinemment quels effets négatifs le duplicate content peut avoir ?
très bon article, je suis tout à fait d'accord avec vous et je pense qu'il vaut mieux éviter le duplicate tout simplement.
Bonjour,
Est-ce que copier le titre d'un article provenant d'un site extérieur pose un problème de DC ?
Est-ce que copier le titre de 10 articles différents provenant d'un même site extérieur (mais concernant des pages différentes) pose des problèmes de DC ?
Question subsidiaire (pour ceux ayant des notions en droit ^^): copier le titre d'un article est-il considéré comme du plagiat si ce même titre renvoit vers la page de l'article du site extérieur qd on clique dessus ?
merciii ;)
Bonjour,
Question de débutant : quand un site propose plusieurs profils d'utilisateurs sur sa page d'accueil, il se peut qu'un même contenu soit disponible plusieurs fois car reproduit dans plusieurs profils. Dans ce cas il dispose de plusieurs url ... Or, si je lis bien Google considérera ces pages comme des copies (sans trop s'énerver pour distinguer l'originale, mais ça me concerne moins).
Est-ce grave docteur ?
C'est un problème si les différentes versions de la page d'accueil sont indexables.
Comment accède-t-on à une page avec profil utilisateur ? Il faut être connecté ? Ou simplement suivre un lien ?
Une des possibilités est d'utiliser la balise canonique.
j'ai vu des cas ou du duplicate content a complètement déclassé des sites (ex: footer bas de page trop long)
Merci pour votre article
Merci pour cet article. C'est très intéressant.
Le contenu dupliqué est un réel problème pour les sites récents dont les articles sont repris partout sur le web. Ggle met toujours en avant les articles émanant de sites ayant un bon page rank et un bon trust rank. Je doute même qu'il s'atèle ultérieurement à rechercher la source originale. Une fois que Ggle a fait son choix on dirait qu'il n'en change plus ... si vous êtes le petit qui écrit les articles mais qui n'est pas choisi, alors c'est quand même dommage.
Je rejoins Olivier, mais le duplicate n'est pas un problème. Les multiples articles dupliqués (intelligemment, c est à dire en coupant ici ou là, en mettant des images hébergés chez soi etc...) permettent de relayer ses écrits sur de nombreux autres supports que son simple site internet.
L'afflux de visiteurs est réel, et je jus de PR est également compté.
Je ne pense pas me tromper
Donc en fait tu ne me rejoins pas !!!
Je persiste à dire que le duplicate externe peut être un réel problème s'il est mal géré...
Je ne pense pas que Google pénalise tant que ça le DC car, comme vous l'avez souligné, il est très difficile pour le moteur de faire la différence entre le contenu dupliqué volontairement pour alimenter un agrégateur ou le contenu dupliqué pour générer du contenu facilement.
Apparemment tu n'as pas tout lu, notamment les témoignages... Bien sûr que si le DC peut pénaliser un site, Google incite de plus en plus à ce qu'on publie du contenu inédit ET de qualité.
Prenez le cas de Dmoz : Un contenu de référence repris sur de nombreux sites. Selon votre définition, ce serait du DC pénalisable par GG
Cela fait très longtemps que Google a créé un filtre qui empêche les clones de DMOZ d'apparaitre dans les résultats. Cela répond-il à la question ou la remarque ?
j'ai posté cette question sur le forum. Consultez la pour voir les réponses qui m'ont été rapportées:
https://www.webrankinfo.com/forum/t/duplicate-content-sur-blogspot-facebook-en-plus-du-site-principal.125532/#p1158033
Je reproduis 2 articles par mois de mon site (http://www.terre-des-thes.fr/) sur un blog à part ) et sur une page Facebook (http://www.facebook.com/pages/Terre-des-Thes/109433721898).
Le contenu dupliqué n'est pas énorme comparé au site original. Mais est ce que mon site principal risque d'être pénalisé pour son référencement?
Merci pour cet article. Une question : comment Google met en application le filtre DC sur les annuaires ? Autrement dit pourquoi certains annuaires passent au travers des pénalités pour DC et d'autres non ?
Petit retour sur un site allemand dont je me suis occupé durant l'été : le site est passé de 6.000 visiteurs / jour à moins d'un millier à cause d'un contenu copié/collé depuis wikipedia. On a décidé de retravailler le contenu pour qu'il soit totalement unique.
Les résultats ont mis deux mois pour arriver, mais le site a retrouvé ses visiteurs, qui plus est, le taux de transformation a lui aussi également augmenté.
Excellent article et très complet sur un sujet le "duplicate content" interprété illogiquement par Google suivant les cas.
Cela dépend du fait que les noms des produits recherchés soient plus ou moins concurrentiels, ça va de soi...
Ok,
De notre côté, nous gérons de nombreux sites qui exploitent les contenus les uns des autres avec par exemple tous les produits des catalogues de sites clients repris dans un catalogue global d'un site "père".
Nous avons une très bonne indexation des fiches produits (qui sont donc quasi identiques) à la fois dans le site "père" et dans les sites clients. Souvent, même, pour un même nom de produit, le site client et le site père occupent les 2 premières places. Et ça peut se vérifier non pas sur un ou deux, mais sur des centaines d'exemples.
Prenez le cas de Dmoz : Un contenu de référence repris sur de nombreux sites. Selon votre définition, ce serait du DC pénalisable par GG ?
si l'ensemble du site est basé sur un clone de DMOZ : oui le site risque d'être pénalisé
si c'est seulement une partie, alors cette partie risque de ne jamais apparaître dans Google. D'ailleurs ça fait des années que je ne vois plus de clone de DMOZ dans les résultats Google (mis à part le clone créé par Google !)
Toute entreprise qui embauche des pirates pour polluer le web avec leurs (ou ses propres) virus, malwares et autres pour avoir plus de place dans la concurrence, c'est peut-etre rentable avec la vente d'anti-virus.
La propagation de duplicate content par contre, si elle avait auparavant un quelconque but commercial, avec le nouvel algorithme de détection c'est devenu de la pure stupidité qui fait perdre du temps aux auteurs des méfaits et qui aide sa concurrence.
Mais il faut du temps aux moteurs de recherche pour effectuer les nettoyages et mettre aux points des outils d'exclusion toujours plus performants.
@Olivier Duffez : Merci d'avoir pris le temps de me donner votre avis sur ma question.
Bonjour Olivier,
Merci pour cet article qui résume bien les différentes problématiques posées par le duplicate content.
Je trouve intéressant que tu ailles à l'encontre d'une croyance encore dominante sur le DC...
Le Duplicate content interne n'est pas dangereux en soi mais plutôt source d'une mauvaise optimisation/sous optimisation du link juice interne...
A Bientôt,
Sujet intéressant. Merci Olivier pour tous ces eclaircissements.
Oui, l'internaute est vraiment envahi de contenus web semblables . Il arrive qu'une dizaine de pages web affiche la même "information". Quel intérêt pour l'internaute ? c'est pure perte de temps.
Attendre la réaction de Google pour résoudre ce problème risque de faire durer le mal encore plus longtemps. Il serait plutôt mieux que les éditeurs web prennent conscience de l'intérêt de proposer une information originale de qualité à leurs visiteurs. Un minimum d'étique jouera sûrement en faveur du référencement de leurs sites web.
Bonjour Olivier et vraiment merci pour la qualité de tes articles. J'utilise un bloc de tagscloud dont le lien url des tags est : "mot clé du tag recherché". En revanche ma page a toujours le même titre (le nom de mon site). Est ce que cela pose un pb au niveau du référencement sachant que l'url de recherche est toujours différente ?
Merci
@Sun Location : ça dépend des cas... j'ai déjà vu des cas où Google pénalise pour des cas où le contenu non original ne représente qu'une partie de la page (exemple : des comparateurs)
@Fred : ce genre de pages risque de ne pas avoir bcp de succès dans Google, surtout si le titre est toujours le même...
@Auto Dispo : en effet ces autres pages (2 et suivantes) n'ont pas grand intérêt pour le référencement. Peut-être faut-il afficher + de 10 produits par page
Bonjour,
Si une page contient du contenu avec plusieurs paragraphes copiés depuis plusieurs sites internet, es ce que cela est considéré comme une nouvelle page aux yeux de Google ? Ou es ce qu'on pourrait appelé ca du multi duplicate ;)
Merci pour ses informations de qualité.
Article très intéressant mais j'aurais aimé avoir votre opinion sur un point.
Supposons un site internet qui vend des écrans. Avec une rubrique "écran 17 pouces" qui contient 100 produits. On affiche 10 produits par pages donc 10 pages optimisées sur écran 17 pouces avec des urls réécrites (ecran-17.html ; ecran-17-p2.html...) Le but étant de faire découvrir tous les écrans 17 pouces aux moteurs.
Mais alors, est ce que ces 10 pages vont être considérées comme dupliquées du fait des optimisations similaires (title, description, h1...) ?
Merci pour votre retour et ceux des autres ;-)
Olivier, bon résumé :
Pour que cette duplication partielle de contenus ne soit pas un problème pour votre référencement, il faut vous assurer que les conditions suivantes sont toutes remplies :
* la quantité de texte reprise doit être très faible (quelques lignes maximum)
* la source doit être indiquée clairement, avec un lien vers votre page (pas vers votre page d'accueil… et pas en nofollow…)
* la page qui reprend votre contenu utilise une balise title et une balise meta description différentes des vôtres
on a malheureusement vu des sites originaux sauter même avec ces conditions ....
En effet L.Jee, bonne remarque. J'ai mis à jour mon article.
Canonicalisation : un peu lourd !
Je propose canonisation, tout simplement.
c'est bien tenté mais la canonisation signifie complètement autre chose !
Le duplicate content n'entraine aucune pénalité ? Quels sont les tests que tu as effectué à ce sujet ? Que fais tu des sites sanctionnés pour cette cause, modifiés et qui sont repartis, simple coïncidence ?
Tu annonces donc que ceci est faux, il n'existe de pénalités pour cela, pourquoi, car la communication le dit ?
Un peu déçu de lire ceci alors que l'on a constaté depuis la mise en place de ce filtre par Google de nombreux cas ou le duplicate content s'avérait être la cause de la pénalité affligée aux sites ...
Très bon article cependant ;)
En fait, j'ai fait la bêtise de recopier le contenu d'une des pages de mon site sur un site du style quefaire.be... Donc je crois que le mieux que j'ai à faire est de modifier le contenu de ma page.
C'était avant que j'apprenne ce qu'était le duplicate content,... Grâce à WRI, j'ai vraiment appris pas mal de chose ;)
Bonjour Olivier,
tout d'abord merci pour cet article qui éclairci le mystère qui est le duplicate content :p
par contre j'ai une question, si une page de son site est victime de duplicate content, est ce que google pénalise l'ensemble du site ou seulement la page fautive?
Merci d'avance pour ta réponse
@ Jonathan : si le site est "victime" je suppose que ça veut dire qu'un autre site l'a recopié ?
En tout cas c'est page par page
Félicitations pour cet article très détaillé, mais amha 99% des pbs proviennent de la mauvaise utilisation d'un cms ou alors du plagiat/scrapping, ce qui est évidemment plus difficile à corriger dans ce dernier cas. Ajouter des liens internes contextuels (avec url absolue :) ) dans ses articles (en dehors d'autres considérations de ref.) fonctionne parfois avec certains scrappers pressés ou pas vraiment codeurs de métier.