Duplicate Content : le point sur ce que nous savons

zapman · 11 Mai 2006

Le "Duplicate Content" est le fait d'avoir 2 pages Web comportant le même contenu ou un contenu très proche.

Dans un tel cas, et pour éviter d'encombrer leurs résultats de recherche, les moteurs tels que Google élimine l'une des deux pages des résultats.

Le "Duplicate Content" est géré par un filtre et non par une pénalité. Il ne provoque pas de perte de PageRank (excepté pour le cas N°1 décrit ci-dessous), ni de "blacklistage" ou de "sandbox".

Pour éviter le cas le plus fréquent et le plus ennuyeux de "Duplicate Content", il est impératif que toutes les pages de votre site comportent des balises <Title> et <Description> différentes.

On peut distinguer 3 cas distincts de "Duplicate Content" :

1- Pages exactement identiques (à l'octet près)
Cas de sites miroirs. Google considèrera que la page ayant le plus fort PageRank est l'URL canonique. Il désindexera les autres pages et reportera leur PageRank sur la page retenue. Cela ne semble pouvoir se produire que si les pages identiques figurent sur des noms de domaine différents.

2- Pages similaires mais comportant des balises <TITLE> et <DESCRIPTION> différentes
Toutes les recherches portant sur le texte commun aux différentes pages donneront comme résultat la page ayant le plus fort PageRank. Les autres pages seront visibles en cliquant sur "relancer la recherche en incluant les pages ignorées". Elles figureront également dans les résultats des recherches portant sur leurs contenus originaux (ce qui diffère du texte commun).

3- Pages différentes mais comportant les mêmes balises <TITLE> et <DESCRIPTION>
Certaines pages peuvent sembler très similaires aux yeux des moteurs de recherche alors qu'elles semblent différentes aux yeux d'un humain. (en-têtes identiques, menus identiques, "footer" identique). Le fait qu'elles possèdent des balises identiques ne fait qu'aggraver la situation. Elles risquent de subir les mêmes problèmes que les pages similaires citées ci-dessus. Dans le pire des cas, il est même possible que leur contenu ne soit pas du tout indexé.

Le filtre "Duplicate Content" s'applique sur des pages et non pas sur la globalité d'un site.

Les pages concernées sont retirées des résultats mais ne sont pas désindexées. Si elles comportent une petite partie originale, on peut continuer à les retrouver par une recherche sur les mots de ce contenu original.

Lorsque le contenu d'une page est copié par un site indélicat, il arrive que Google conserve la page du copieur et retire celle de l'auteur. Google semble simplement privilégier la page ayant le plus fort PageRank à l'exclusion de toute autre considération.

Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats.

On lit souvent que deux pages doivent comporter moins de 70% de ressemblance pour échapper au filtre "Duplicate Content". Ce chiffre ne repose sur aucune base et ne résiste pas à l'expérimentation. Voir à ce sujet http://www.rankspirit.com/resultats-experimentation-duplicate.php

Source de cet article (comportant d'autres précisions) : http://www.rankspirit.com/duplicate-content.php

dd32 · 11 Mai 2006

Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?
:wink:

zapman · 11 Mai 2006

dd32 a dit:
Puisqu'on fait un point, tu me permets de rappeler ce topic ?
"Duplicate content" Existe t' il vraiment ?

Mais je vous en prie, chèr(e) ami(e), faites donc !

Et tant qu'on y est : >Ce topic aussi< : sur l’importance de la différentiation des balises meta et sur les risques propres aux sites dynamiques.

L'expérimentation citée dans le premier post tente de répondre à certaines des questions que posaient ces topics. Mais l'interprétation des résultats n'est pas toujours simple. En clair, la réponse à la question "qu'est-ce qui fait que Google détecte un Duplicate Content ou non" est loin d'être évidente.
Ce qui est sûr, c'est que la règle des 70%, qui est souvent citée, est tout à fait bidon. :roll:

Rebelle bleue · 11 Mai 2006

Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?

zapman · 13 Mai 2006

Rebelle bleue a dit:
Dans ta page de résultats, on voit que ce sont les pages qui ont le plus de ressemblance avec la page originale qui sortent dans les résultats. Comment explique-tu ça ?

J'ai bien une explication, mais elle est un peu complexe :
- toutes les pages de l'expérimentation sont liées les unes aux autres à l'aide d'une liste de liens qui est toujours la même
- dans cette liste, les pages 90% (de ressemblance) et 80% sont placées en premier
- on peut supposer que ces pages récupèrent du coup un "PageRank" (ou quelque chose dans ce genre) plus important que les autres
- en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank.

Borower · 13 Mai 2006

Tres bon article.
Une recommandation

Ce sujet de duplicate content m'interresse beaucoup.

pubwebmaster · 13 Mai 2006

Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?

zapman · 13 Mai 2006

Pour un duplicate content sur un m'eme nom de domaine... que ce passe-t-il?

Google et MSN ne retiennent qu'une seule page parmi toutes celles qui sont dupliquées (ou considérées comme telles) :
"Les sites proposant plusieurs versions de chacune de leurs pages (versions imprimables, par exemple) ne seront pas pénalisés par ce filtre. Simplement, une seule de ces pages figurera dans les résultats. Pour choisir laquelle, il suffit d'ajouter la balise <meta name="robots" content="noindex"> dans les pages que l'on ne souhaite pas voir figurer dans les résultats. "

pubwebmaster · 15 Mai 2006

Merci beaucoup pour ta réponse zapman...

je mettre tes conseils en application

wullon · 15 Mai 2006

Très bon article, en particulier la FAQ. J'aime bien l'emploi du mot filtre.

Et je me corrige, il me semble que j'avais dit dans un post précédent que c'était rare que Google soit sec sur le duplicate content dans le cas de différents domaines. Pourtant, https://www.google.com/search?q=dedibox. Seul le .fr est présent, le .com pas du tout, d'ailleurs, à un moment c'était le contraire (on voit que Google avait du mal à "choisir", d'ailleurs, dedibox.fr est l'exemple de ce qu'il ne faut pas faire ^^).
Peut être aussi que Google se base sur d'autres infos (whois ?).

Par contre, je trouve la phrase "en cas de "Duplicate Content", Google choisit d'afficher les pages ayant le plus fort PageRank" un peu trop catégorique.

Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?

Quelqu'un a des exemples de sites qui ont été filtré à tord ?

Parce que justement, le truc, c'est que cette histoire de duplicate fait peur, mais que finalement Google ne se trompe pas (ou se corrige vite).
Enfin il y a eu cette lettre ouverte aussi.

zapman · 15 Mai 2006

wullon a dit:
Je ne sais pas si c'est spécialement le PR (~ quantité+qualité des BLs) qui influe. Par exemple, pour dedibox, si le .com a 18k liens avec "a" en ancre, et le .fr 100 mais avec "dedibox" en ancre, ce ne serait pas le .fr qui serait gardé ?

Très bonne question. Il faudra que je fasse le test sur mes pages d'expérimentation