[Topic officiel] Aide & questions sur les effets du duplicate content

L.Jee · 8 Mars 2010

Salut à tous,
Je vois chaque jour de plus en plus de personnes cherchant à en savoir plus sur les effets du duplicate content et le référencement sur Google.

Etant donné que j'ai été touché très tôt par ces effets (début 2008), j'ai passé beaucoup de temps à essayer de comprendre le pourquoi du comment et surtout comment Google réagissait face au contenu dupliqué depuis l'ajout de ce filtre dans leur algorythme.

Ceci fait que je commence (en deux ans) a être "calé" dans ce domaine. J'ai eu pas mal de sites touchés et pénalisés par ce filtre et ai réussi à en faire sortir pas mal de leur pénalité.

C'est pourquoi, aujourd'hui, je propose ce topic ou j'aiderai et conseillerai au mieux les wrinautes sur les choix à adopter face au duplicate content.

Donc, si vous avez des questions ou des soucis avec ce filtre, n'hésitez pas à les poser ici et j'essaierai d'y apporter un peu de lumière (si je peux, bien entendu).

En avant :mrgreen:

1-sponsor · 8 Mars 2010

Moi j'en ai une

Qui sait, tu auras peut-être une ou des idées

Pourquoi des sites remplis de duplicate grave, constituant une grande majorité de leur contenu, ne sont ils pas (encore) pénalisés ?

• Ancienneté ?
• Nombre de liens internes ?
• Qualité des liens internes ?
• Considérés comme les pères des contenus en ligne ?
• Exception faite par Google ?
• ... ?
• ... ?
• ... ?

Non non, je ne suis pas hors sujet.

Quand on a la réponse à cette question, on dispose d'une arme (ou déjà d'une piste) supplémentaire pour combattre le duplicate.

L.Jee · 8 Mars 2010

Plusieurs hypothèses, mais à mon avis tu les connais déjà :
1 - Google laisse, si site de confiance, plusieurs résultats pour un texte dans ses SERP
2 - Le site est blindé de duplicate mais celui-ci est "réfléchit", par exemple, il n'a pas des pages présentant uniquement un texte pris ailleurs. je veux dire par là, qu'une page reprenant 10 textes venant de 10 sites peut parraitre aux yeux de Google pertinente car présentant l'information d'une manière différente. En soit, inutile de la pénaliser au contraire (cas des aggrégateurs comme scoopeo qui vivent tjs).
3 - Google prend le site pour celui qui a la paternité du contenu

J'espère t'avoir apporté des pistes. Mtn direction le salon de l'auto à Genève

OTP · 8 Mars 2010

Proposition : donner une définition précise du DC dans le post de tête. Ce n'est pas forcement clair pour tout le monde.

Et parce que rien ne vaut une bonne définition pour parler tous de la même chose :

Qu'est-ce que le contenu dupliqué ?

Et en prime :

Comment régler vos problèmes de contenus dupliqués

HawkEye · 8 Mars 2010

Il y a aussi ceci:

https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencem ... t-realites

forty · 9 Mars 2010

ca me fait marrer ton lien.

La pénalité de contenu dupliqué est un mythe

On va donc enlever ce contenu de nos résultats de recherche ou le rendre moins visible

si rendre moins visible ou supprimer des SERP n'est pas une pénalité c'est quoi?

HawkEye · 9 Mars 2010

Un filtre.

L.Jee · 9 Mars 2010

Un filtre qui pénalisera le site en visibilité. Encore une fois chacun l'appellera comme il veut, le résultat sera identique qu'on l'appelle filtre ou pénalité

1-sponsor · 9 Mars 2010

Je crois que Hawk insiste sur cette nuance (de termes qui, au finale, ont les mêmes résultats) quand à un phénomène dont c'est les annuaires qui ont été les plus touchés, pour signaler que Google n'a rien "contre" les annuaires parce que ce sont des annuaires, mais plutôt qu'il a quelque chose contre les sites ayant un trop grand taux de "duplicate grave".

Du coup, ce n'est pas une punition (même si le site est bien puni d'une certaine manière), mais une manière pour Google de repousser les résultats moins pertinents.

C'est ce que j'ai compris en tout cas.

Hawk me corrigera ou me complètera...

HawkEye · 10 Mars 2010

1-sponsor a dit:
C'est ce que j'ai compris en tout cas.

Hawk me corrigera ou me complètera...

Tu as bien compris mon propos

Le filtre est un effet algorithmique découlant de différents facteurs qui sont annoncés ou non (à présent, le Duplicate Content est clairement annoncé comme étant un facteur risque).

ie: la SandBox...

La pénalité est la conséquence d'une décision, qui peut découler d'une analyse (humaine) déclenchée par un certain nombre de critères (ie: voisinage, risque link spam (cf. actualité récente), etc...).

ie: la Black List...

NB: Comme le précise L.Jee (avec qui on se prend gentillement le chou depuis plusieurs semaines à propos de cette terminologie

), le résultat est le même :mrgreen:

1-sponsor · 10 Mars 2010

Merci Hawk, ça va me faire gagner du temps.
À présent, j'écrirais directement "filtré" pour en parler au lieu de mon éternel : sanctionné/pénalisé/filtré/déclassé.

L.Jee · 10 Mars 2010

C'est vraiment du jeu de mots là. Quand on se prend une sandbox, on dit clairement qu'on a été pénalisé. Du coup on a tous un peu juste et un peu juste

Maintenant que l'on sait ce qu'est le duplicate content et comment on appelle l'effet quand un site disparait des SERP on va pouvoir se concentrer sur l'aide et les conseils aux wrinautes

WebRankInfo · 10 Mars 2010

Merci pour ce topic, je lui offre une reco

OTP · 10 Mars 2010

WebRankInfo a dit:
Merci pour ce topic, je lui offre une reco

Qu'est ce que je t'avais dit ,L.Jee, hein ? :wink:

steph@ne · 10 Mars 2010

tant qu'on est dans le Duplicate Content, quid du fil RSS qui incorporerait la totalité des articles des sites référencés. Du xcoup, on a beaucoup de contenu pour pas cher, pleins de mots clefs en rapport avec son activité mais forcément du DC par construction. Alors, pénalité ou pas ?

1-sponsor · 10 Mars 2010

Je n'en sait pas grand chose, mais Hawkeye avait tenté de faire un agrégateur très clean et ça a été un échec il me semble.

À lire : Et un agrégateur de moins.

L.Jee · 10 Mars 2010

Pour le flux, c'est exactement comme pour le reste, si ton contenu est basé là dessus, tu prends des risques

reglisse · 10 Mars 2010

je me pose toujours la question du côté de la pertinence du contenu que l'on offre :

- un site qui reprend du C 100% D même en le présentant autrement quelle pertinence il peut avoir ? pratiquement aucune

- pour ce qui concerne les vieux annuaires, leur base de données est telle qu'ils contiennent une somme d'informations que très peut de site peuvent prétendre présenter, dupliqué ou pas, on trouvera de l'information sur ces annuaires, le site est pertinent en ça.

- un site qui reprend du C dupliqué en y apportant une analyse et un commentaire, il faut alors que le commentaire ou l'analyse soit pertinent, mais qui est capable d'apporter une analyse pertinente sur un contenu ou une information ( c'est ce que devrait être nos annuaires une vrai analyse du site, de sa qualité, de son contenu etc. au lieu de cela on fait la course aux pages indexées )

- la pertinence va plus loin que le DC, si votre site présente un contenu non pertinent ( pas pour autant DC, c'est bien vous qui l'avait produit ), mais beaucoup d'autres sites on déjà tout dit sur le sujet de a à z, cela va être difficile de remonter dans les résultats, va falloir faire énormément de ref; par contre avec un contenu pertinent que quelques sites présentent pas plus, pas besoin de faire beaucoup de ref pour être présent dans les toutes premières place des résultats

L.Jee · 10 Mars 2010

Si on pouvait reste dans le sujet AIDE & CONSEILS, ce serait bien

reglisse · 10 Mars 2010

ben le conseil, c'étais ( j'explique c 'est mon métier la pédagogie

) FAUT ETRE PERTINENT ! ok ?

Protée · 10 Mars 2010

Salut L.JEE,
moi aussi j'ai fait les frais d'un DC... mais pas en interne... par malveillance.
Alors, une question.
Peut-on lutter contre cette pratique de la façon suivante :

Prendre le texte qui a été dupliqué par un site concurrent
Le mettre sur un (ou plusieurs) blogs genre Blogger, etc...
Linker le blog vers la page qui contenait le texte dupliqué pour marquer la paternité de son auteur.

L'objectif étant bien sûr de ne pas disparaitre/couler dans les SERP's, car tu le sais comme moi... Google ne sait pas gérer correctement les actes de malveillance de ce type.

L.Jee · 11 Mars 2010

Salut Protée,
Donc si je te suis. Tu voudrais dupliquer encore ton contenu via des plateforme de blogs en liant vers ton site pour dire à Google : "J'ai pompé sur lui, donc c'est lui le volé et l'autre le voleur" ?

Comme tu le dis, Google ne gère pas bien tout ça, même plus de deux ans après la mise en place du filtre. J'avais eu un cas flagrant ou un agrégateur reprenait mon intro avec un lien dur vers ma source. Et bien, cela n'avait pas empêché Google de me faire sauter dans les SERP au détriment de l'agrégateur qui lui trustait une belle place. Bon ça date de plus d'un an maintenant, ça a très bien pu évoluer.

Après, j'ai pu remarquer que plus une phrase était dupliquée et moins Google ne filtrait les pages. On pourrait imaginer qu'au lieu de copier tout ton texte sur 100 blogs, tu pourrais dispatcher une phrase par blog au milieu d'autres phrases différentes sur chaque blog afin de noyer la phrase et la faire apparaitre aux yeux de Google comme une citation ou un texte connu.

En exemple, on peut prendre cette citation de François de La Rochefoucauld : "Il est plus honteux de se défier de ses amis que d’en être trompé". Si on fait une recherche de cette phrase sur Google, on remarque que beaucoup de sites l'utilisent et ne sont pas filtrés (j'ai pu constater que ça dépendait du nombre de fois ou elles étaient dupliquées) : https://www.google.com/webhp?hl=fr#q=%22Il+est+plus+honteux+de+se+d%C3% ... 3589012def

Ca pourrait être une technique, mais d'une, rien n'est sur, de deux, t'auras plus vite fait de tout réécrire si tu ne sais tout automatiser.

Protée · 11 Mars 2010

Merci L. Jee pour cette réponse.
Il me semble que tu as vécu une mésaventure assez similaire à la mienne.
Pour nos lecteurs, il s'agit d'un duplicate d'une partie du site qui plombe les positions du site rédacteur (auteur).

Avec le recul que tu as maintenant, 2 ans après cette mésaventure, crois-tu que tes sites sont à l'abri d'une expérience similaire ?
Quelle stratégie, quelles précautions conseilles-tu pour lutter contre ces actes de plagiat/concurrence déloyale qui plombe les positions du site plagié ?

Évidemment, il faut imaginer le cas de figure triste mais courant, d'un plagiaire situé dans un pays étranger... que la justice aura bien du mal à raisonner. :|

L.Jee · 11 Mars 2010

A l'abris, je le pense, je fais tout pour qu'ils le soient en tout cas. Pour ma part, il ne s'agit pas de plagiat ou de concurrence déloyale mais juste de webmaster et seo qui copie colle leurs descriptions à tout va sur les annuaires. Pour ton cas, si tu es plagié, il faut entrer en contact avec les plagieurs ou l'hébergeur si aucun contact n'est possible avec les plagieurs. Mais bon là tu trouveras plus d'infos dans le forum Droit du Web.

Évidemment, il faut imaginer le cas de figure triste mais courant, d'un plagiaire situé dans un pays étranger... que la justice aura bien du mal à raisonner. :|

Peut-être d'autres voies sont-elles possibles. Ils ont l'air d'avoir trouvé ici d'après les commentaires. Et il me semble aussi que Marie-Aude expliquait l'autre jour que les hébergeurs étrangers réagissaient pour le plagiat. Faudrait que tu cherches encore une fois dans le forum droit du web, ça a été traité il n'y a pas très longtemps.

fran6 · 11 Mars 2010

des ptits liens pour (tenter de) comprendre la détection du duplicate par google
http://simhash.googlecode.com/svn/trunk/paper/SimHashWithBib.pdf
http://infolab.stanford.edu/~manku/papers/07www-duplicates.pdf

Protée · 11 Mars 2010

Bonsoir L.Jee,
je voulais précisément éviter le débat sur les réponses juridiques à cette question... pour recevoir ton avis sur les parades techniques pour lutter contre les pertes de positions consécutives à un plagiat.

C'est une question qui touche le DC, quelles sont parades techniques que tu mettrais en place ?

Merci fran6 pour tes liens.

L.Jee · 11 Mars 2010

A part faire retirer le contenu, là comme ça je ne vois pas ce que tu peux mettre en place, si ce n'est la réécriture des textes incriminés. Si je trouve une idée, je te fais signe

Edit : Booster chaque article pondu avec du liens externes, ça ne peut pas être néfaste et peut t'aider à passer outre le plagiat avec Google. Si c'est pour corriger le tir, une fois que c'est fait, à part ajouter masse de contenu unique avec bl externes pour chaque publication en attendant que ça passe, je ne vois tjs pas. T'as essayé le spam report ? Même si pour moi ça ne sert à rien, tu peux essayer, certains disent que ça marche...

Protée · 11 Mars 2010

Spam Report, oui, c'est un bouton en plastique.

Merci L. JEE.
A+.

nza2k · 11 Mars 2010

Hello L Jee,

D'après une discussion que nous avions déjà eue, il t'avait "suffit" de réécrire les descriptions de tes annuaires filtrés pour les sortir rapidement du filtre.

Je dispose de pages (je parle bien de pages, et non de sites) qui sont filtrées. J'ai réécrit leur contenu il y a près d'un mois, je pense apporter une information unique et pertinente... mais ces pages sont toujours filtrées

Pourrais-tu me dire si tu as fait autre chose que de réécrire le contenu ?

Merci par avance pour ton aide !

L.Jee · 11 Mars 2010

Non rien d'autres, mais bon un mois, ce n'est pas beaucoup, ça peut encore arriver qu'elles ressortent, attend encore une ou deux semaines avant de changer les choses

blman · 12 Mars 2010

Salut L.Jee et merci pour ce topic.

Je voudrais apporter ma contribution sur un autre domaine : le e-commerce.

Alors cas pratique : plusieurs gros fournisseurs de mon domaine fournissent des fichiers ou masques d'intégration à mes concurrents et à moi (nous sommes au moins une 10ène à utiliser ce système). Dans ce fichier, nous avons tout le catalogue du fournisseur (avec désignation, descriptif produit, caractéristiques, photo, ...). Nous moulinons ces fichiers pour remplir nos catalogues.

Conséquences : nous avons quasiment tous les mêmes catalogues, avec les mêmes fiches produit (quasiment au mot prêt) (ici, on parle en plusieurs milliers d'articles - voir dizaine de milliers d'article donc plusieurs milliers de pages identiques).

Résultat : aucun ne souffre du duplicate content, aucune pénalité ou filtre constaté.

Qu'en tirer comme conclusion ? Seulement certains formats de site serait touché par le duplicate ?

L.Jee · 12 Mars 2010

j'ai le même cas que toi avec un site sur le tourisme ou nos infos viennent des offices de tourisme et donc que nous sommes, en plus des offices et mairies, plusieurs dizaines à reprendrent le contenu. Pour ma part, je pense qu'on est pas pénalisé car nous sommes les seuls à reprendre toute la base de données, alors que les autres sites ne reprennent que le secteur dont ils s'occupent et on, en plus de ce contenu, du contenu qui leur est propre. Sans compter que nous n'utilisons pas tous toutes les infos qui est disponible pour chaque fiche.

Pour ton cas, vous reprenez tous tout le catalogue ou est-ce que chacun en prend un peu et avez vous d'autres contenus ? Es tu sur qu'aucun n'est pénalisé ? Utilisez vous tous le contenu fourni pour chaque fiche ou est-ce que chacun prend les éléements dont il a envie ? Ajoutez vous du contenu sur les pages en plus de ce que vous donne le fournisseur ? Es tu sur qu'aucun des sites travaillant avec ce fournisseur n'est pénalisé ?

Je ne sais trop quoi dire quand on voit de tels exemples. Est-ce que les annuaires par exemple serait sanctionnés car texte identique et en prime un lien pointant pour tous vers le même site ? Pourquoi pas...

J'attends que tu m'en dises plus pour voir si on peut trouver des pistes

Edit : Envoie moi une de tes fiches que je jette un oeil

blman · 12 Mars 2010

Bé après, il est vrai que selon les marchands, on va choisir les marques qu'on travaille chez chaque fournisseur, qu'on rajoute un peu de contenu et que le contenu du template qui habille est différent. Après, je ne parle même pas des comparateurs de prix qui reprennent le contenu mot pour mot, ou ceux qui indexent les fiches produits ou les sites d'affiliation qui reprennent les catalogue via les CSV qu'on leur fournit.

Willgoto · 12 Mars 2010

De mon côté, je voudrais soulever la question : qu'en est-il exactement du duplicate content en matière d'images ? Et ce dans les deux hypothèses ci-après:
Images dupliquées sur des sites différents (voir e.a. https://www.webrankinfo.com/forum/une-image-peut-elle-etre-referencee-deux- ... l#p1149491)
et images dupliquées sur différentes pages (le cas échéant, de langues différentes) sur un même site.

L.Jee · 12 Mars 2010

Je me souviens d'un topic de Cédric G qui nous disait qu'un mec avait pompé sa photo et que de ce fait, il avait disparu de la première page de Google images au détriment du voleur. On doit donc pouvoir, avec des pincettes, en conclure que Google reconnait très bien les images et qu'il applique les mêmes règles que pour le texte. Faudrait faire des tests là, les images, ce n'est pas du tout mon domaine

Je mail Cédric qui pourra peut-être nous éclairer

blman · 12 Mars 2010

Du coup, ça pourrait expliquer le filtre sur les annuaires, vu que vous utilisez tous les mêmes générateurs d'image pour les vignettes des sites ?

L.Jee · 12 Mars 2010

Bof, ce serait tiré par les cheveux

cedric_g · 13 Mars 2010

Bonjour

(merci L.Jee pour m'avoir averti, c'est très intéressant comme sujet

)

Je ne pense pas que les images soient gérées de manière identique aux contenus, en tout cas pas encore concernant la similitude (en passant, l'algo Google est encore loin d'être aussi performant que celui de TinEye.com :rolleye: )

Et d'expérience une même image (je veux dire : le même FICHIER sur le même serveur) ne peut pas apparaître sur deux résultats avec une même requête (je n'en ai encore jamais trouvé en tout cas). C'est ce qui fait la dangerosité du hotlink depuis des sites à fort trafic (typiquement plates-formes de blog ou gros forums), qui font que votre image n'est plus linkée depuis votre page, mais depuis les pages des pompeurs :twisted:

Quant à générer du "duplicate", je n'y crois pas, car seuls les résultats image sont impactés (d'ailleurs à ce propos, un site pas mis à jour ne perd pas ou très peu en positionnement sur Google Images dans le temps, tandis qu'au niveau des résultats textes, il perd... La tendance est clairement marquée sur mon site photo, pas mis à jour depuis... 2007 :-x cause interface d'admin que j'ai pas eu le temps de refaire)

rudddy · 14 Mars 2010

Willgoto a dit:
De mon côté, je voudrais soulever la question : qu'en est-il exactement du duplicate content en matière d'images ? Et ce dans les deux hypothèses ci-après:
Images dupliquées sur des sites différents (voir e.a. https://www.webrankinfo.com/forum/une-image-peut-elle-etre-referencee-deux- ... l#p1149491)
et images dupliquées sur différentes pages (le cas échéant, de langues différentes) sur un même site.

ybet avait fait des test sur cela (avec une image wiki), et d'après mes souvenirs, dès qu'il a enlevé la photo, la page est ressortie dans les serp !

rudddy · 14 Mars 2010

blman a dit:
Du coup, ça pourrait expliquer le filtre sur les annuaires, vu que vous utilisez tous les mêmes générateurs d'image pour les vignettes des sites ?

ce serait vraiment un scoop !

Firewave · 14 Mars 2010

C'est la même chose pour les photos au passage.

Willgoto · 14 Mars 2010

merci pour les différentes réponses ci-dessus, en particulier à Cedric G.

et si Ybet passe par ici, il peut tjrs y faire part de sa propre expérience.

L.Jee · 14 Mars 2010

rudddy a dit:
Willgoto a dit:

De mon côté, je voudrais soulever la question : qu'en est-il exactement du duplicate content en matière d'images ? Et ce dans les deux hypothèses ci-après:
Images dupliquées sur des sites différents (voir e.a. https://www.webrankinfo.com/forum/une-image-peut-elle-etre-referencee-deux- ... l#p1149491)
et images dupliquées sur différentes pages (le cas échéant, de langues différentes) sur un même site.

Cliquez pour agrandir...

ybet avait fait des test sur cela (avec une image wiki), et d'après mes souvenirs, dès qu'il a enlevé la photo, la page est ressortie dans les serp !

T'es sur que c'était Ybet ? J'avais fais ce test sur baleze ya quelques temps, c'était pas ça ?

rudddy · 14 Mars 2010

autant pour moi !

à tout seigneur tout honneur, rendons à césar ce qui appartient à césar

OTP · 14 Mars 2010

Arrête, il va s'exploser les chevilles !

L.Jee · 14 Mars 2010

Bon du coup, vu que c'était bien ça. Je confirme que ce n'était pas l'image de Wikipédia qui était la cause du soucis, même si j'ai eu a le penser

Puis la page avait pas disparu des SERP mais se faisait doubler par une page nettement moins pertinente

Micaliore · 16 Mars 2010

je prends le train en route ...
comment fait-on pour savoir si un site est pénalisé pour DC ? ou pour autre chose ?
en fait mon site a été TRES fortement pénalisé il y a exactement 2 semaines (un mardi noir pour moi)
la totalité des positionnements a plongé de la page 1 à la page 197 ... (c'est une image, évidemment je ne sais pas sur quelles pages ils ont atterri, mais c'est très très loin !)

si je vous ai bien lu, cela peut être à cause :
- de certaines photos qui ne sont pas toutes de moi
- de certaines pages qui sont doublées (le contenu d'une formation apparaissant 2 fois : une fois pour la formation continue et l'autre pour la formation professionnelle)
ces 2 causes sont en place depuis l'origine du site soit plus de 4 ans !

- du flux RSS (un même flux sur tous les bas de page, grace au footer)
le flux avait été mis en place quelques jours avant le mardi noir

- ou bien une autre cause, mais laquelle ??

si vous avez le temps, allez voir mon site et donnez moi un peu d'espoir ...

d'avance, merci :wink:

L.Jee · 16 Mars 2010

Salut,
Le flux RSS que tu affiches, il vient d'ou ? Vu la proximité de l'insertion de celui-ci et le jour ou tu disparais des SERP, à mon avis tu as ta raison.

Si ce flux est externe à ton site et qu'il affiche le texte en prime (tu pourrais n'afficher que les liens), enlève le et tu verras d'ici 2/3 semaines si ça bouge.

Vu que ce flux est repris sur toutes tes pages, ça expliquerait la chute, car le coup de deux pages identiques ou quasi identiques ou alors les photos, ça ne fait pas chuter un site ainsi

Micaliore · 16 Mars 2010

L.Jee a dit:
Salut,
Le flux RSS que tu affiches, il vient d'ou ? Vu la proximité de l'insertion de celui-ci et le jour ou tu disparais des SERP, à mon avis tu as ta raison.

c'est un flux qui vient d'un site de formation

L.Jee a dit:
Si ce flux est externe à ton site et qu'il affiche le texte en prime (tu pourrais n'afficher que les liens), enlève le et tu verras d'ici 2/3 semaines si ça bouge.

oui il affichait une ligne de texte : la même sur tous les footer (50 pages)
je l'ai déjà enlevé depuis 1 semaine
tu dis que cela devrait bouger (s'améliorer) d'ici 2-3 semaines .... je l'espère

L.Jee a dit:
Vu que ce flux est repris sur toutes tes pages, ça expliquerait la chute, car le coup de deux pages identiques ou quasi identiques ou alors les photos, ça ne fait pas chuter un site ainsi

oui je crois aussi que les photos et les pages en double n'expliquent pas cette chute, surtout que ces photos et pages sont sur le site depuis 5 ans ...

par contre, je viens de me rendre compte que j'ai oublié une cause possible : quelques jours avant le plongeon (en même temps que le flux RSS, des dizaines de liens externes qui pointaient vers mon site ont été enlevés ...
alors : flux RSS ou perte de liens ?

merci L.Jee
d'autres idées ? ...

L.Jee · 16 Mars 2010

Pas d'autres idées, c'est duplicate content, pas support pénalité

Leulier · 19 Mars 2010

Bonjour à tous,

(j'espère que le topic est adapté à ma question).
Je gère le site http://tinyurl.com/y9h72rm , lancé il y a pas loin de deux ans et dont le trafic organique ne faisait que monter régulièrement a mesure que le contenu et les liens augmentait. Afin d'améliorer le référencement (enfin en espérant l'améliorer), j'ai créé 4 autres sites (liens vers les requêtes google "site:" vu que les sites n'existent plus) :
http://tinyurl.com/ygdb5aj, http://tinyurl.com/yfms3rb, http://tinyurl.com/yjapdcr, http://tinyurl.com/ygsoyen
Avec une page d'accueil optmisée pour chacune des plates-formes, et un filtre moyennement bien fait sur le contenu. Au final le résultat était 5 sites au contenu quasiment identique linkés entres eux via des liens dans leur footers.

Pendant quelques mois, tout c'est bien passé, mais le 18 février dernier, mon trafic venant de Google a été divisé par trois sur mon site principal, alors qu'il restait identique (et faible) sur les autres sites. Je me dis que le problème doit venir du duplicate content trop fort entre les domaines, et en regardant les symptomes de mon site, il apparait assez clairement comme pénalisé (toujours 1er pour son nom ou pour son nom de domaine, mais rank dans les 100-400 pour quasiment toutes les requetes ou il rankait en 1ere page avant).

Du coup je redirige 301 tous les sites miroirs vers le principal, et fait une demande de reconsidération via les webmaster tools. 7 jours après, la requête est examinée, mais aucun changement.

Et voilà, ça fait un peu plus d'un mois. Que me conseillez-vous ?

L.Jee · 19 Mars 2010

Intéressant comme retour. Ton contenu vient d'ou ? T'as des parties de ton site qui viennent d'ailleurs du genre des flux rss ?

Leulier · 19 Mars 2010

Tout le contenu est produit par les rédacteurs du site, sauf les descriptions de jeux et certains commentaires qui sont importés de l'App Store. Dans le doute je l'ai ai désactivé il y a peu. Ex dans le cache Google : http://tinyurl.com/yzhgeer

L.Jee · 19 Mars 2010

Ok bah là dans l'immédiat, ça n'a pas l'air de concerner le duplicate ton histoire. Pas le temps de vérifier ton site pour identifier la cause.

Leulier · 20 Mars 2010

Tu ne penses pas que le problème vienne de là ?

Vu le nombre de pages indexées sur les sites secondaires ça me semble possible non ?

L.Jee · 20 Mars 2010

Oui, c'est même surement la raison, mais si tu as modifié il y a plus d'un mois, étonnant que tu ne sois pas revenu dans les SERP. Attendre un peu peut-être

vdouda · 24 Mars 2010

Suite à l'extension de l'utilisation de la balise rel canonical cross-domain, quel est l'impact de cette balise d'une manière générale et plus particulièrement dans le cas de sites en marque blanche ?
Seront-ils déclassés un peu, beaucoup...? Le site d'origine va t-il progresser ?

Merci

tdt34 · 25 Mars 2010

je viens de prendre connaissance du duplicate content. Pensez vous que ma stratégie soit préjudiciable pour mon site principal?

-j'ai mon site prncipal (http://terre-des-thes.fr) de vente de thé en ligne avec ma partie produits et ma partie articles.

-je reprends certains de mes articles pour les mettre en valeur sur blogspot (http://terre-des-thes.blogspot.com/). Je me suis dis que cela était intéressant pour toucher la communuauté des bloggeurs, en séparant mon blog de mon site commercial.

-les articles que je post sur le blog génèrent automatiquement un article sur ma page Facebook (https://www.facebook.com/pages/Terre-des-Thes/109433721898?v=wall&ref=nf) et un post sur twitter (http://twitter.com/terredesthes).

-je post quelques news sur le thé uniquement sur facebook, redirigés sur twitter et enfin en news rss sur ma page principal de mon site.

tdt34 · 31 Mars 2010

J'ai reposé ma question ici:https://www.webrankinfo.com/forum/t...ok-en-plus-du-site-principal.125532/#p1158033
consultez là pour voir les réponses.

L.Jee · 31 Mars 2010

Ah mon avis, tu n'y gagnes rien à faire cela avec Blogspot, ton blog sera ignoré et en plus tu prends des risques de voir certaines de tes pages disparaitre des serp pour duplicate content. Pour Facebook, j'ai déjà dit sur l'autre topic ce que j'en pensais. Bien que si tu dupliques tes articles entièrement sur FB et que cette partie est indexable, tu joues aussi avec le feu. L'avenir, si tu continues, te diras si tu vas te bruler ou non

tdt34 · 31 Mars 2010

Merci pour tes réponses L.Jee.
Oui, tu as raison..
Je me posais dèjà la question de l'intérêt à dupliquer mes articles sur un blog...alors en plus si ça risque de pénaliser mon site, c'est encore pire!

L.Jee · 1 Avril 2010

Si tes articles ne sont pas que 3/4 lignes d'actu comme on en voit tant, tu peux faire un résumé sur le blog avec un lien vers ton article. Mais bon, si le but c'est juste créer un blog parallèle reprenant exactement le site sans valeur ajouté, c'est pas génial, faut le faire vivre en y apportant en plus ton contenu

tdt34 · 1 Avril 2010

Oui c'est ce que je viens de faire,

j'ai laissé les intros de mes articles et un lien pointant vers l'article du site...
Voilà, merci pour tous ces conseils...je ne sais pas si mon site est déjà pénalisé depuis que j'ai crée le blog et Facebook, mais bon vaut mieux prendre ses précautions!

L.Jee · 1 Avril 2010

Tout à fait. Par contre, pourquoi t'obstiner à vouloir garder un vieux copié collé ? Ecrire quelques lignes ce n'est pas le bout du monde. Tu le fais pour nous et pour toi ici même, alors pourquoi pas pour toi sur ton blog aussi ? Ce ne sera que bénéfique, un lien et un bout de texte copié collé, ça aura le même effet que l'article en entier, voir pire car moins de contenu

tdt34 · 1 Avril 2010

Encore un bon conseil de ta part! Je m'y attaque dès que possible.
Je vais revoir ma manière de faire avec ce blog, ça se trouve je le laisserai en jachère.

Un blog n'a de raison d'être que s'il est vivant, c'est pourquoi tant de passionnés s'y retrouvent...Moi en tant qu'activité commerciale, mon temps est limité et je dois plus me concentrer sur mon site.

Je suis plus à l'aise avec ma page Facebook, elle me permet d'envoyer des liens très rapidement, de donner des nouvelles de mon site etc...

...affaire à suivre!

Encore merci.

lafeeperle · 2 Mai 2010

cedric_g a dit:
Bonjour

(merci L.Jee pour m'avoir averti, c'est très intéressant comme sujet )

Je ne pense pas que les images soient gérées de manière identique aux contenus, en tout cas pas encore concernant la similitude (en passant, l'algo Google est encore loin d'être aussi performant que celui de TinEye.com :rolleye: )

Et d'expérience une même image (je veux dire : le même FICHIER sur le même serveur) ne peut pas apparaître sur deux résultats avec une même requête (je n'en ai encore jamais trouvé en tout cas). C'est ce qui fait la dangerosité du hotlink depuis des sites à fort trafic (typiquement plates-formes de blog ou gros forums), qui font que votre image n'est plus linkée depuis votre page, mais depuis les pages des pompeurs :twisted:

Quant à générer du "duplicate", je n'y crois pas, car seuls les résultats image sont impactés (d'ailleurs à ce propos, un site pas mis à jour ne perd pas ou très peu en positionnement sur Google Images dans le temps, tandis qu'au niveau des résultats textes, il perd... La tendance est clairement marquée sur mon site photo, pas mis à jour depuis... 2007 :-x cause interface d'admin que j'ai pas eu le temps de refaire)

Si cela intéresse, peux vous parler de notre expérience, déjà évoquée par ailleurs sur le sujet du DC.
il y a quelques semaines il nous restait 99 images "propriétaires" sur google, nous avons évincé, comparateurs et market place, en particulier PIX.... et ZOO et nous avons retrouvé la "paternité" de 13900 images.
De même que dans les résultats sur les mots, tout les articles du site ou pratiquement.

rudddy · 2 Mai 2010

comment tu as 'évincé' ?

L.Jee · 2 Mai 2010

Intéressant La Fée, merci pour ce retour. J'ai eu comme tu dis évincé du duplicate auparavant mais la page n'est pas toujours revenu, c'est rassurant de voir que pour vous c'est du 100% de réussite

lafeeperle · 7 Mai 2010

J'ai demandé à toutes les market place et comparateurs de cesser la diffusion de notre catalogue, certains l'ont fait immédiatement, d'autres se font tirer l'oreille, d'autres encore "mitonnent" en conservant texte et images et en informant que cet article est "désuet" ou en cours de modification.
Il ne faut pas les lâcher et surveiller quotidiennement.
Je vous donne d'autres infos plus tard, au passage j'ai ouvert une page Facebook ou on peut déposer des commentaires https://www.facebook.com/group.php?gid=107467605951946 qui aura pour but premier de relayer des infos vues sur des forums, des sites officiels, J'espère qu'il pourra vous être utile.

sonieva · 1 Octobre 2010

Bonjour,
je pense avoir un souci de "duplicate content" d'une part j'ai des produits qui ont la même description étant du même créateur et en plus mon site permet à l'utilisateur de faire des filtres ce qui génèrent des url différentes mais des pages identiques.
Première chose, je travaille mon contenu interne et pour l'autre une redirection 301 ? en plus la page indexée est souvent la mauvaise Url en revanche les méta-description sont plus pertinentes ????
merci pour votre aide, je débute et les forums me révèlent plein de choses sur le fait qu'un développeur n'est pas un référenceur...

Madrileño · 1 Octobre 2010

Bienvenue au forum.

Le mieux est de créer un topic en présentant votre site (tout public) pour pouvoir avoir des conseils des membres.

Vous pouvez aussi vous présenter : [Forum] Comment vous présenter.

sonieva · 1 Octobre 2010

Madrileño a dit:
Bienvenue au forum.

Le mieux est de créer un topic en présentant votre site (tout public) pour pouvoir avoir des conseils des membres.

Vous pouvez aussi vous présenter : [Forum] Comment vous présenter.

N'ayant pas atteint la moyenne je ne le souhaite pas pour le moment :wink:

Madrileño · 1 Octobre 2010

sonieva a dit:
N'ayant pas atteint la moyenne je ne le souhaite pas pour le moment :wink:

N'ayant pas compris la réponse, pouvez-vous préciser ce que vous entendez par "atteint la moyenne", merci.
Par exemple les pages de tags peuvent créer du duplicate content, les pages de recherches de produits aussi, il faut à ce moment ne pas les ajoutées au fichier Sitemaps par exemple et ne pas les indexées pour ne pas avoir de duplicate content.

sonieva · 1 Octobre 2010

les filtres dont je parle sont en fait des tris utilisés par le visiteur pour une recherche qualifiée ex : tri par prix, catégorie de produit, créateur..
J'ai lu je ne sais plus où que cela génère des pages identiques avec des URL différentes, est ce que vous pouvez confirmer ou démentir cela ? Et si oui comment puis je y remédier ?
merci

Madrileño · 1 Octobre 2010

Vous pouvez utiliser le fichier robots.txt par exemple.

N'hésitez pas à participer sur le forum en répondant aussi à d'autres topics (présentant vos avis d'utilisateur par exemple).

sonieva · 1 Octobre 2010

c'est la méthode la plus adaptée à mon cas ? Pas de liens canoniques, de redirections 301 ?
Le mieux c'est de faire appel à un développeur pour le faire où c'est à la portée de quelqu'un qui se débrouille :roll:
merci pour la réactivité de vos réponses

Madrileño · 1 Octobre 2010

sonieva a dit:
c'est la méthode la plus adaptée à mon cas ? Pas de liens canoniques, de redirections 301 ?
Le mieux c'est de faire appel à un développeur pour le faire où c'est à la portée de quelqu'un qui se débrouille :roll:
merci pour la réactivité de vos réponses

Il est possible d'utiliser des liens canoniques, si les pages doivent être utilisées la redirection 301 ne servirait pas.
GWT peut aider à la création d'un fichier robots.txt .

N'hésitez pas à répondre aussi à d'autres topics pour aider les autres membres.

sonieva · 1 Octobre 2010

c'est qui GWT ?
J'ai regardé dans mon code et j'ai l'instruction suivante "<meta name="robots" content="all"/>"...

Madrileño · 1 Octobre 2010

sonieva a dit:
c'est qui GWT ?

Google Webmaster Tools.

sonieva a dit:
J'ai regardé dans mon code et j'ai l'instruction suivante "<meta name="robots" content="all"/>"...

La meta et le fichier robots.txt sont deux choses différentes.

sonieva · 1 Octobre 2010

ok merci je suis en train de parcourir les procédés pour créer un fichier robot.txt, à titre d'info que veux dire cette balise méta, lire toute la page ?