Problème de Duplicate Content ?

ENDYMION · 31 Décembre 2010

Notre site (http://www.derniersparus.com) a pour objectif de publier dès la date de parution les fiches des livres de la semaine.

Nous ne sommes pas les seuls ? C'est certainement vrai. Mais en rassemblant les éléments épars chez l'éditeur principalement et chez Amazon ensuite, nous arrivons à être complets avant un bon nombre de librairies. Du moins sur certaines thématiques favorites, d'autres telles que le roman et les livres pour enfants étant laissées de côté.

Nous sommes en droit de :
- regrouper les éléments des éditeurs, un "legal advice" d'un spécialiste et le directeur des ventes d'un grand éditeur nous l'ont confirmé : on n'interdit pas à un libraire de mettre en vitrine un livre ...
- exploiter les éléments d''Amazon dont nous sommes partenaires sans problème depuis 2005

La structure du site oblige à reprendre les éléments descriptifs des livres (titre, auteur et présentation de l'éditeur). Il y a donc du "duplicate content" interne puisque qu'un livre peut être repris dans les pages chronologiques, auteur, éditeur et fiche complète : nous assumons. Et il y a aussi du "duplicate content" avec les éditeurs, Amazon et les autres librairies qui proposent les mêmes titres.

Nous précisons que le DC n'est que partiel (fiche livre) et ne concerne qu'une partie de la page.

Mais apparemment Google et les autres moteurs repèrent jusqu'au morceau de paragraphe.

Notre site est-il donc pénalisé vraiment par le DC ? Et si oui, quels sont les moyens de contourner l'obstacle ?

Nous précisons qu'apparemment, il ne présente pas d'autres tares particulières : les pages et les CSS sont contrôlées par le W3CValidator, Google ne repère pas d'anomalie de navigation (en fait si il en a repéré il y a 3 mois et en a encore en mémoire même si le pb est réglé depuis longtemps), le temps d'accès aux pages est jugé bon par Google, etc ...

Merci donc de nous éclairer de vos conseils avisés (ce n'est pas du léchage de bottes :wink

et Meilleurs Voeux à tous

padadam22 · 31 Décembre 2010

Le seul moyen d'y remédier, si tu veux que les pages soient vues par les moteurs de recherche, c'est de faire vos propres textes...

ENDYMION · 31 Décembre 2010

Désolé mais je ne peux pas réécrire les titres des livres, of course !

Et réécrire 40000 présentations éditeurs, c'est carrément surhumain, je lis beaucoup mais à ce point ...

Ceci dit, j'avais bien deviné ton conseil mais je serais plutôt content si quelqu'un en avait un autre. Tu n'es pas vexé ?

Merci tout de même

finstreet · 31 Décembre 2010

Et donc tu veux une solution pour passer devant des sites qui font comme toi et donc ne réécrive rien ?

ps : 40.000 à raison de 15 par jour, ca prend que dix ans

ENDYMION · 1 Janvier 2011

Ce n'est pas le genre de la maison ...

Entretemps, j'ai fait une recherche un peu plus poussée sur des ensembles de deux ou trois phrases de présentation éditeurs. Je constate que sur un vingtaine de tests, les résultats sont entre la page 1 et 10 de Google. Et c'est logique, je n'espère pas passer devant les gros comme Amazon, FNAC et les éditeurs.

Et j'obtiens le résultat que j'escomptais en fait : je suis mal placé sur les best-sellers, bien placé sur les ouvrages méconnus qui sont mon créneau.

Conclusion personnelle sur le duplicate content. Ce n'est pas du bidon, Google repère mais ne pénalise pas vraiment. Il accorde la priorité au premier et au plus légitime. En fait mon classement est normal et j'arrête de me plaindre. D'autant qu'en fin de liste, Google ne dit pas qu'il a occulté des pages redondantes, donc il ne me pénalise pas pour du DC. Du moins celui là.

Car, en revanche, mon problème de duplicate content doit venir d'une erreur de débutant que j'ai commise et rectifiée depuis : j'ai déclaré à Google le site avec www et sans www. Si ça c'est pas du DC ! C'est corrigé mais il faut le temps à Google de rectifier le tir.

Autre détail intéressant. Google m'annonce qu'il visite en moyenne 55 pages par jour (je ne dis pas qu'il les indexe toutes ...). Or mes logs Apache indiquent qu'il en visite entre 200 et 300 par jour.

Vous n'avez jamais remarqué que les stats de tableau de bord Google Webmaster ne donnent pas vraiment n'importe quoi mais quelque chose qui y ressemblerait un peu ?

Au fait, Meilleurs Voeux pour 2011

padadam22 · 2 Janvier 2011

ENDYMION a dit:
Désolé mais je ne peux pas réécrire les titres des livres, of course !

Et réécrire 40000 présentations éditeurs, c'est carrément surhumain, je lis beaucoup mais à ce point ...

Ceci dit, j'avais bien deviné ton conseil mais je serais plutôt content si quelqu'un en avait un autre. Tu n'es pas vexé ?

Merci tout de même

Vexé? Non pas franchement, c'est juste qu'il n'y a pas de solution miracle... tu créé du DC, donc tu as du DC.

ENDYMION · 2 Janvier 2011

padadam22 a dit:
Vexé? Non pas franchement, c'est juste qu'il n'y a pas de solution miracle... tu créé du DC, donc tu as du DC.

Il en faut plus pour me vexer.

Mais regarde ma réponse qui s'est intercalée.

Le DC lié aux présentations éditeur ne me donne pas un classement optimal devant les grands du secteur. C'est le jeu, je m'y attendais et ça ne me choque pas. Je craignais simplement que ce DC n'empêche carrément l'indexation : sur plusieurs dizaine de tests, je n'observe pas de refus d'indexation mais donc seulement un mauvais classement logique.

Comme je le disais, je crois que le rejet d'un certain nombre de pages venait d'un DC lié à une inscription du site dans Google avec et sans www. Et ça, je crois que c'est franchement mauvais. J'ai inséré la bonne redirection dans un htaccess : il n'y a plus qu'à attendre.

finstreet · 2 Janvier 2011

donc il ne te reste plus qu'à faire les descriptions des pages où tu es clairement considéré comme en DC... ca te prendra plus qu'un an au lieu de dix

ENDYMION · 2 Janvier 2011

Le vie est belle !

logiciel-phototheque · 15 Avril 2011

Bonjour,
J'ai suivi avec intérêt vos échanges.
Je suis dans un cas assez similaire, mais pas sur des livres.
Avez vous un retour d'expérience positif après quelques mois d'indexation ?
La reprise d'un titre et d'un résumé (abstract) sont-ils vu comme du DC et cela vous a t il pénalisé ?

Bien cordialement,
Thomas

lambi521 · 15 Avril 2011

Le problême du DC ce n'est pas tant la "pénalisation" de Google, c'est surtout d'être bien placé dans les SERPs alors que des dizaines d'autres sites ont les mêmes informations. Et là ça se joue à coup de backlinks, au SEO de la page, à l'ancienneté etc...

ENDYMION · 15 Avril 2011

logiciel-phototheque a dit:
Bonjour,
J'ai suivi avec intérêt vos échanges.
Je suis dans un cas assez similaire, mais pas sur des livres.
Avez vous un retour d'expérience positif après quelques mois d'indexation ?
La reprise d'un titre et d'un résumé (abstract) sont-ils vu comme du DC et cela vous a t il pénalisé ?

Bien cordialement,
Thomas

Voilà ce que j'ai observé depuis mon dernier mail :

1/ la "sandbox" ne semble pas une légende : après une période de purgatoire, Google m'a triplé le nombres de pages indexées en dix jours. La pénalisation (apparente) ne venait probablement pas du duplicate content

2/ j'ai rénové un vieux site de structure identique (mais de thématique différente). J'ai publié de nouveaux sitemaps et là, en deux semaines, Google a indexé environ 90% du 1er sitemap (dans l'ordre alphabétique). Donc pas de pénalités en terme de DC vis-à-vis des sites concurrents. Cependant, ce "site était référencé sur Google depuis 5 ans : il s'agit sans doute d'une prime à l'ancienneté.

3/ en revanche, chose intéressante, le premier sitemap (par auteurs) étant à peu près complet, il s'attaque maintenant aux pages détails. Le nombre indexé augmente rapidement mais j'ai observé une diminution (légère) des pages auteurs indexées. On dirait donc que Google élimine le DC interne. Ce qui est logique et ne me contrarie pas plus que ça.

C'était quelques observations empiriques dont vous pouvez déduire ce que vous voulez mais qui montrent que les choses ne sont pas aussi simples que certains veulent bien le dire.

Amitiés

lunicrea · 15 Avril 2011

ENDYMION a dit:
C'était quelques observations empiriques dont vous pouvez déduire ce que vous voulez mais qui montrent que les choses ne sont pas aussi simples que certains veulent bien le dire.

Hmm, qui a bien pu te dire que le référencement c'était aussi manichéen ?

Le référencement c'est certainement pas simple mais subtil, voir même complexe ... D'autant plus que c'est comme les relations humaines, on a , bien souvent, du mal à être objectif et a différencier le vrai du faux ! :mrgreen: