Un point sur le Duplicate Content (contenu dupliqué)

doic · 28 Juin 2006

Bonjour.

J'aimerai faire un point sur le Duplicat Content.
On lit de temps en temps sur le forum que le Duplicat Content est un phénomène du à des pages proposant plusieurs contenus pour la même URL et inversement (si si, j'ai vu ça ^^).
Tout d'abord, plusieurs contenus pour une même URL, ce n'est pas du DC (je vais abréger le terme "Duplicat Content") c'est juste une très grosse erreur dans la gestion des contenus. L'inverse relève bien du DC, mais pas seulement. Si personne ne s'y oppose, le DC est "déclaré" (oui, ça s'apparente à une maladie, avec des symptômes, des causes et des remèdes) si plusieurs pages proposent un contenu sensiblement similaire. Ainsi, de nombreux sites dynamiques ont beau générer des titres, descriptions et contenus différents, il se pourrait que Google classe des pages en DC.
Par exemple, certains sites sont construit sous cette forme:

Code:

<title>Nomdusite.com :[mot-clé dynamique], toujours la même phrase</title>
<meta name="description" content="Phrase 1 [mot clé (le même qu'en haut)] Phrase 2 (ou pire: suite de mots-clés toujours pareille)" />

Dans les pires des cas, on a dans le <body></body> toujours le même carcan (header, menu à gauche, éléments contextuels (toujours les mêmes) )et 5 petites phrases en plein milieu, qui changent sur chaque page (soit un mini-contenu).

Bref, le contenu change bien, mais il est très similaire...

Voilà, est-ce que jusque-là tout le monde est d'accord avec moi ?

Ensuite, j'aimerai soumettre une méthode pour détecter facilement les cas de DC (tirez la langue est faites Ha ^^):

Je tape la commande site:lesiteenquestion.com dans Google, et j'essaie d'aller en page 90 ou 99 (dépend de l'humeur).

Si Google me montre cette page, et que je peux éventuellement aller jusqu'à la 100ème page, le site est en parfaite santé.
Si il m'amène automatiquement en page 70 et quelques, avec le fameux lien

Pour limiter les résultats aux pages les plus pertinentes (total : xxx), Google a ignoré certaines pages à contenu similaire.
Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.

Il y'a une partie du site qui semble "malade".
En fait, plus il y'a de pages, et plus le site est "malade"...

Bien entendu, il faut comparer avec le nombre total de résultats pour la commande, si le site n'a que 500 pages indexées, 470 résultats affichés, c'est très bien...

alesque · 28 Juin 2006

Harggg !!!!

J'ai que 27 pages sur 176 !!!

Mon site est très malade ? C'est ça ?

J'ai gagné ??

efz · 28 Juin 2006

J'ai rencontré le cas que tu décris en effet sur un moteur de recherches : mon traffic est passé de 1300/1500 vu/jour à 2500 vu/jour à partir du 14 Juin, pour retomber à environ 1600 vu/jour à partir du 24 Juin. La plupart des nouvelles visites étaient dûes à ce moteur qui utilise l'API Google, mémorise les recherches effectuées et propose les meilleurs recherches sous forme de liens.
J'imagine que Google a finalement considéré qu'il s'agissait de duplicate content... :cry:

david96 · 3 Juillet 2006

Intéressant ça ! Merci doic !

doic · 3 Juillet 2006

Oui... mais est-ce que je peux avoir des retours sur la validité de ma méthode ??
Pour ma part, elle me semble pertinente, mais j'aimerai bien l'avis de personnes un peu plus averties...

david96 · 3 Juillet 2006

Je vais l'appliquer dès aujourd'hui ! Ça ne peut pas faire de mal !
Je n'avais mis que la balise <title> en dynamique, la balise <description> étant toujours la même. Je vais donc remédier à ça !
J'espère que tu auras des réponses à ta requête en attendant, car je ne pense pas que ça sera pris en compte par google de suite pour ma part :?

Allez au boulot ! 8)

dobey · 4 Juillet 2006

Si Google me montre cette page, et que je peux éventuellement aller jusqu'à la 100ème page, le site est en parfaite santé.
Si il m'amène automatiquement en page 70 et quelques, avec le fameux lien

Oui et non.
Je pense que ce test est valide pour un site ciblant des recherches assez générales, mais pas pour les sites qui ciblent beaucoup de requetes précises.
Exemple d'un site d'annonces auto:
Les pages ignorées dans les résultats de cette recherche ne sortiront pas sur "renault d'occasion" ou même sur "renault d'occasion ile de france". Par contre, sur des recherches très précises comme "renault 19 td occasion à PloucVille", la page sera listée si on a la chance d'avoir l'annonce qu'il faut (ou des annonces qui combinent ces mots sur la page).
Donc, pour un site avec des milliers de pages qui ratisse large sur des requêtes spécifiques, je ne crois pas que ton test puisse indiquer un problème majeur.
A confirmer.

doic · 4 Juillet 2006

Le problème avec le Duplicat Content, c'est que même si ton site y est sujet, ses pages sont susceptibles de ressortir dans les résultats: Google ne se prive pas de contenu qu'il a indexés !

Le problème, dites-moi si je me trompe, c'est en fait que le DC pénalise des pages (puisque ce ne sont en fait que de pâles copies d'autres pages) pour des requêtes larges.

Si une page comporte 99% du contenu d'une autre, plus le mot "Pertyfez", elle aura beau être considérée DC, elle sortira si tu tapes "Pertyfez" sur Google... logique !

dobey · 4 Juillet 2006

Tout à fait d'accord.
Donc le DC n'est pas une forme de blacklistage de page, ce n'est pas "On/Off". Je pense que c'est un des critères de classement des résultats et qu'il est progressif. Il n'y a certaienement pas de seuil (genre "au dela de 70% de contenu similaire, t'es mort. Et en dessous tout baigne) mais ce critère doit déclasser proportionnellement au taux de similarité.

Autre chose : il se peut que le DC soit détecté par blocs dans la page (paragraphe? phrase?).
http://www.cs.umd.edu/~pugh/google/Duplicates.pdf
Dans ce cas, on peut supposer (et c'est logique) que dans le cas d'une page qui contiendrait un contenu original + une définition recopiée sur Wikipédia, le contenu unique ressorte bien sur les termes le concernant mais que les mots clés de la définition Wikipedia ne permettre pas de se positionner.

doic · 4 Juillet 2006

Là j'en doute. J'ai un pote (éspèce de Vieux Machin ^^) qui recopie volontiers des articles de Wikipédia (toujours en citant la source) et qui positionne très bien ses pages sur des requêtes de l'article !

A mon avis, c'est quand même On / Off, mais si c'est Off, ça ne concerne que les requêtes larges. Sur des requêtes précises (et peu concurrentielles) ta page en DC sortira bien quand même...