Google et le duplicate

L.Jee · 23 Octobre 2008

Bonsoir à tous,

J'écris hier un petit article, indexé dans les 5 minutes et qui est en moins de 24h repris par un site genevois. Au final, Google ne ressort pas ma page, seul ma home ressort dans les résultats et le pire c'est que Google fait très bien ressortir cet enfoiré qui m'a tout simplement pompé ...

Exemple: https://www.google.fr/search?num=100&hl= ... cher&meta=

C'est pas nouveau pour bon nombre de gens, mais beaucoup était réticent quand on en parlait, voici une preuve. Page indexé avec 24h de différence mais ça ne change rien la plus récente seulement est conservée pour les serp.

Quand on regarde, il a juste pompé le début et a fait un lien vers la source, mais le résultat c'est mon article entier qui disparait de Google comme on le constate sur cette phrase qui est uniquement présente normalement sur l'article: https://www.google.fr/search?num=100&hl= ... cher&meta=

Edit: Reprise du site genevois supprimée. Reste à voir comment Google réagit.

Benoit1 · 23 Octobre 2008

De mon côté j'ai cette réponse de GG :

Web
Aucun résultat trouvé pour "le tour va t-il se jouer cette année en Haute Savoie".

Résultats pour le tour va t-il se jouer cette année en Haute Savoie (sans guillemets) :

etc.

L.Jee · 23 Octobre 2008

Oui c'est bien ce que je dis, cette requête ne renvoie rien, la suite de mon article qui lui n'est pas dupliqué (seule l'intro à été reprise) à tout simplement été ignoré par google ... Ybet en avait parlé discrètement dans ses tests, la maintenant ça parait clair ...

On voit que wikio reprend aussi mon intro, cependant lui ne m'a jamais pénalisé pour la suite des articles.

cedric_g · 23 Octobre 2008

Ça fait peur 8O

Quid des sites affichant des flux RSS ?... Risque potentiel ?

xibo · 23 Octobre 2008

Clair que ça fait peur ! Ybet l'a bien testé aussi c'est vrai.

C'est vraiment flippant, sous prétexte de ne pas faire ressortir de DC, gg se balance complètement de qui est l'auteur. Enfin en tout cas ne met pas suffisamment de moyens en place pour régler ce problème.

Chose qu'ils auraient quand même pu tester convenablement avant de mettre à jour certaines parties de leur algo. Quand on est dans l'incapacité de faire face a un problème on met de côté le DC et dans le doute on affiche tous les résultats !

Merci L.Jee pour ce retour d'expérience. :wink:

carole heinz · 23 Octobre 2008

@ L Jee > attention, cela ne fait que 24h. j'ai l'impression que sur des infos très fraîches, Google donne pendant quelques jours l'avantage aux gros sites d'actualités, souvent mis à jour.

il faut aussi lui laisser le temps de faire son travail: indexation immédiate ne rime pas avec analyse immédiate: c'est techniquement impossible de comparer en quelques secondes une page web à des milliards d'autres. donc Google indexe, laisse le bénéfice du doute aux gros, puis analyse et généralement les choses rentrent dans l'ordre. et je ne parle même pas du temps de propagation entre DC, une fois l'analyse effectuée.

je parie que d'ici quelques jours ton site repasse devant.

L.Jee · 23 Octobre 2008

Il va repasser car j'ai fais supprimer l'article sur le site en question. Après que mon article repasse devant ok peut-être serait-il repassé devant de toute façon, mais moi je perds la moitié de mon article qu'il ne prend plus en compte. C'est illogique.

Un contenu mis en ligne en premier avec un texte de 300 caractères et indexé le premier se fait aligner par une texte issu de lui n'ayant que 150 caractères et indexé 24h plus tard.

Efficace la pertinence ...

carole heinz a dit:
je parie que d'ici quelques jours ton site repasse devant.

Une news qui apparait 4 jours après l'annonce c'est vraiment extra :lol: (c'était hier et aujourd'hui que c'était intéressant comme info ...)

carole heinz · 23 Octobre 2008

c'est juste la rançon d'une indexation toujours plus rapide. google a mis un coup d'accélérateur sur l'indexation, mais le traitement et l'analyse de la nouvelle page se fait (pour le moment) beaucoup moins rapidement, en tout cas c'est mon sentiment.

c'est dommage d'avoir fait supprimer la page sur le site en question.

Willgoto · 24 Octobre 2008

La question de duplicate content est quand même parfois embarassante.

Hier, je visitais un site officiel qui affichait des longues informations (datant déjà de quelques mois), qui peuvent être reprises et diffusées par d'autres.

M'interrogeant sur l'opportunité de les reprendre, je regarde où google les trouve déjà: il les trouve sur un site privé qui les a repris intégralement, mais pas sur le site de l'organisme officiel qui en est l'auteur , pourtant normalement référencé.

UsagiYojimbo · 24 Octobre 2008

Perso j'ai résolu (enfin en partie) le souci du duplicate content lié à la reprises de flux RSS en proposant dans mon flux un contenu différent (le chapo affiché sur la page d'accueil du site en fait) du contenu principal. Il s'agit de courts paragraphes introductifs destinés à inciter à la lecture de l'article, qui lui est absent du flux.

Certes cela va un peu à l'encontre d'une certaine utilisation du RSS (la possibilité d'obtenir le contenu d'un site sans pour autant devoir surfer sur celui-ci), mais au moins ça me prémunis de ce genre de soucis.

L.Jee · 24 Octobre 2008

Bah justement non. Le site en question reprend uniquement le chapeau, bon ok, il n'y avait pas 1500 caractères dans la suite de l'article, mais ça n'empêche rien, le résultat est le même.

serval2a · 24 Octobre 2008

Salut,
Google est effectivement le pire moteur sur le point de la reprise de contenu (titre + chapeau) sur d'autres sites, notamment via RSS.
Toutefois si tu enlèves les "" c'est bien wikio qui ressort

L.Jee · 24 Octobre 2008

C'est en tout cas la première fois qu'une de ses pages saute que cela ... Ce n'est pas la faute à wikio qui reprend mes chapeaux depuis le début quasiment.

serval2a · 24 Octobre 2008

Ben non ce n'est pas la faute de wikio, ni de l'autre site d'ailleurs, c'est Google qui oublie qu'il avait lu ta page en premier et, comme d'hab, qui favorise un peu le gros sites mis à jour fréquemment et qui a beaucoup de liens externes.
@+

PS : si ça t'intéresses, j'avais fait un petit billet sur le problèmle des flux et des moteurs (donc surtout Google) en juillet avec en prime les conseils de Vanessa Fox.
=> http://outils.enaty.com/articles/?2008/ ... te-content
@+

Cendrillon · 24 Octobre 2008

C'est vraiment dommage que Google ait du mal avec la notion de citation qui est quand même un des éléments essentiels de la philosophie du WEB. Or, qu'est-ce qu'un flux RSS, si ce n'est une source d'information mise à dispo par un site (créateur du contenu original) vers tous les sites qui le souhaitent et qui font en quelque sorte une citation de ce contenu ... Dès lors, il serait normal que TOUTES les infos issues d'un flux RSS soit systématiquement ignorées par Google sur les sites abonnés.

J'ai d'ailleurs cru voir une balise "quote" dans la dernière édition de HTML 5 ... A part les sites qui utilisent ces sources d'information comme contenu exclusif, je ne pense pas que les utilisateurs de bonne foi de ces flux rechignent à renseigner cette balise. En attendant, pourquoi ne pas afficher ces flux en javascript ?

L.Jee · 26 Octobre 2008

Génial, maintenant c'est wikio la source officielle ...

L.Jee · 5 Novembre 2008

Ah tiens, Google à enfin compris que j'étais la source ... Un brin long tout de même !

L.Jee · 17 Novembre 2008

Allez je relance encore ce topic avec ceci, une véritable blague : https://www.google.com/search?num=100&hl ... ercher&lr=

Trop fort chez Google !

carole heinz · 17 Novembre 2008

L.Jee a dit:
Allez je relance encore ce topic avec ceci, une véritable blague : https://www.google.com/search?num=100&hl ... ercher&lr=

Trop fort chez Google !

[HS] si je comprends bien, tu soumets des descriptions dupliquées pour faire la promotion de ton annuaire qui, lui, n'accepte que les descriptions uniques? ça ne risque pas de nuire à la crédibilité du concept? :? [/HS]

L.Jee · 17 Novembre 2008

Oui bien sur et en plus je viens le dire ici mdr ...

Non c'est plutôt qu'on me pompe le texte d'accueil pour faire les liens retour, donc non ça ne nuit en rien à mon concept

Si je demande des descriptions uniques c'est pas pour aller faire l'inverse pour m'inscrire chez les autres.

Merci Carole de m'avoir pris pour une telle personne :lol:

Le but était de montrer que bien que mon texte est là depuis plusieurs mois, Google l'ignore pourtant face a un site qui reprend mon texte et ce bien après qu'il l'ai repéré sur le mien ... Bravo Google, j'aimerai vraiment comprendre le fonctionnement ce coup ci ...

neuneu · 17 Novembre 2008

En fait, tu veux dire que ça sert à rien de passer du temps à rédiger un article pour soumettre sur ton annuaire, parce que de toute gaçon on en tirera rien, ni en traffic, ni en PR. :lol:

L.Jee · 17 Novembre 2008

J'ai pas trop compris ton idée, enfin bon, si le coeur t'en dis explique moi

carole heinz · 17 Novembre 2008

L.Jee a dit:
Oui bien sur et en plus je viens le dire ici mdr ...

Non c'est plutôt qu'on me pompe le texte d'accueil pour faire les liens retour, donc non ça ne nuit en rien à mon concept

Si je demande des descriptions uniques c'est pas pour aller faire l'inverse pour m'inscrire chez les autres.

Merci Carole de m'avoir pris pour une telle personne :lol:

Le but était de montrer que bien que mon texte est là depuis plusieurs mois, Google l'ignore pourtant face a un site qui reprend mon texte et ce bien après qu'il l'ai repéré sur le mien ... Bravo Google, j'aimerai vraiment comprendre le fonctionnement ce coup ci ...

rassure-toi le but n'était pas de te vexer, d'autant que je sais que ta démarche avec costaud.net est sincère et que tu as déjà essuyé assez de critiques pour ta démarche anti-duplicate (que je partage et mets en pratique également de mon côté), c'est justement ce que je trouvais bizarre.

je comprends mieux maintenant: ce n'est pas toi qui a demandé à avoir ces descriptions dupliquées pour ton annuaire et je m'excuse donc pour mon insinuation qui n'était pas fondée

bon une fois encore je pense qu'il faut laisser du temps au temps, de toutes façons faire des requêtes aussi longues (portant sur des phrases entières) ne rime pas à grand chose dans la mesure où il ne s'agit pas de vraies requêtes, donc les résultats sont eux aussi spécifiques. il faudrait voir si sur de vraies requêtes les pages dupliquées passent aussi devant les originales, et là c'est quand même beaucoup moins flagrant (du moins c'est mon impression), surtout si on laisse quelques jours à Google pour faire le tri, une fois les primes de fraîcheur etc passées.

L.Jee · 17 Novembre 2008

Mouais, plus de deux semaines pour le premier message de ce topic il lui a fallu tout de même

Après c'est sur ce n'est pas une requête utile, mais j'ai souvent l'habitude de faire un petit tour rapide pour voir si on se sert sur mes sites et j'en trouve beaucoup qui pompe bêtement pour ouvrir leur annuaire par exemple.

Et sinon ne t'inquiètes pas, je ne l'ai pas mal pris, c'est d'ailleurs pour ça que je me suis permis de me moquer de toi