Pages grisées - taux de duplicate content acceptable

WRInaute occasionnel
Bonjour,

je viens d'analyser un très petit site, un annuaire ultra thématique basé sur la plateforme wordpress.

Stats du blog :

Age : mai 2008
Pr 1, 4 BL
19 sites inscrits
1958 mots totaux
9 pages réelles indexables, 8 indexées

35 Vu/jour depuis google

Je réutilise un partie du contenu des pages en home et en sidebarre, ce qui génère du duplicate « on site », 245 mots sont communs à toutes les pages.

La page non indexée offre 0% de contenu propre,
Une autre avec 39 mots originaux : une suite de 13, une autre de 26 soit 39 mots sur 361 ou 10.80% est pr blanc, indexée, se classe 2 émé sur 417000, adword sur page de résultat, requète 2 mots « fabricant+ thématique »
 
WRInaute discret
J'ai rien compris... Que cherches tu à prouver ?? Qu'avec 10% de duplicate sur ta page Google ne voit rien ?? Et que donc tu arrives à te positionner sur une requête ou il y a du adword ?

Si ta requête t'amène 1 visiteur par mois je ne vois pas l'intérêt...
 
WRInaute discret
Après avoir relus plusieurs fois j'ai un peu mieux compris ton étude :

Tu as un petit site non référencé (4 Bl) sur une niche et donc tu te positionnes correctement dans Google parce que tu réutilises du contenu de tes pages sur ta "home"

C'est ça ?

Mais je n'en vois toujours pas l'intérêt ?
 
Nouveau WRInaute
ce qui est intéressant pour moi, c'est ça :

"La page non indexée offre 0% de contenu propre"

Une page d'accueil qui reprend les éléments de son propre site qui n'est pas indexée.
 
WRInaute occasionnel
Re,

je ne cherches à rien prouver du tout, j'explique simplement que dans au moins un cas, 10.80% de contenu unique sur une page interne (soit 89.20% de contenu dupliqué) suffit pour éviter la pénalité de la page grisée.

Je précise le maigre Pr et le peu de BL externes parce qu' on peux également faire dégriser une page en augmentant significativement son linking. Ce qui n'est donc pas le cas du site pris pour exemple.
 
WRInaute passionné
même si je n'ai pas tout compris, c'est intéressant, mais je ne pense pas que Google estime le duplicate en termes de pourcentage global, mais plutôt sur des parties / sous-parties de pages.

la structure commune aux pages (menu/footer etc) n'est pas à prendre en compte dans le calcul. de + il ne faut pas confondre et mélanger le duplicate "interne" (qui n'est pas grave du tout) et le vrai duplicate, càd le fait de reprendre un contenu hébergé sur un autre site.

il reste donc la partie "centrale" d'une page qui elle-même peut parfaitement être scindée en plusieurs sous-parties.

donc 2% de vrai duplicate sur une page complète peuvent très bien correspondre à 100% de duplicate au niveau d'une sous-partie de page (par ex. dans un <p></p> ) => pas bon
 
WRInaute occasionnel
bonjour Carole,

effectivement si l'on considère que google ne tient pas compte des bloc communs, on peux retrancher les 245 mots communs et conserver un bloc de contenu propre à la page de 116 mots.

Sur ces 116 mots, 39 ne sont utilisés nulle part d'autre sur le site et représentent donc 33% du contenu qui intéresserait le bot.

Concernant le duplicate interne, je ne serait pas aussi catégorique en affirmant que ce n'est rien du tout. La page grisée est la seule dont l'intégralité du contenu est reprise en home, je l'ai vérifié sur d'autres sites également, le duplicate interne est source de tapage sur les doigts.
 
WRInaute passionné
je ne suis pas trop les tests, mais il a été "officiellement" prouvé que le contenu fixe de navigation n'est pas compté ?

33% C'est 1/3 du contenu centrale ... Ce qui rendrait approximativement tous les systèmes "titre + intro" pour amener sur un article qui reprend "titre + intro + contenu" en page grisée. Ce qui me parait complètement idiot de la part de Google si tel était le cas.
 
WRInaute occasionnel
Le duplicate est justement créé par un système qui reprend "titre plus texte intro" en home, dans ce cas précis; les 33% de contenu propre à la page ou 10.80% du contenu total, lui permettent d'éviter la sanction.

Je prends ce site précis en exemple parce qu'il cumule les handicaps : jeune, très faible linking, peu de contenu... Un site comme cela dès qu'il y a l'ombre d'une pénalité possible, il se la mange.
 
WRInaute accro
tonguide a dit:
je ne suis pas trop les tests, mais il a été "officiellement" prouvé que le contenu fixe de navigation n'est pas compté ?
Je serais curieus de savoir d'où vient le terme "officiel" ... Que Google différencie les deux parties, là d'accord. Pour le reste, fait des pages vides (juste 3 - 4 mots quand même en ne reprenant que la partie navigation et c'est direct à la poubelle.

blogger a dit:
.

Je prends ce site précis en exemple parce qu'il cumule les handicaps : jeune, très faible linking, peu de contenu... Un site comme cela dès qu'il y a l'ombre d'une pénalité possible, il se la mange.

Ou plutôt cumule un paquet de partie "amatériste" que Google à l'air de privilégier depuis quelques mois, en plus d'être super spécialisé, c'est aussi une direction. En plus, je pense que les sanctions de duplicate sont plus entre sites que dans des pages d'un même site.

Mais c'est une étude se basant sur un petit site ultra thématique. En me basant sur un post de Carole concernant le duplicate content dans les annuaires (pages grisées), j'ai fait quelques tests sur mon propre annuaire. C'est beaucoup plus complexe.

D'abord, en prenant une partie de la description d'un site dans les recherches Google avec ", on retrouve souvent quelques annuaires les mêmes dans les résultats: dogfree, compare le net, WRI, ... et d'autres qu'on attendrait moins souvent (indexweb et yagoort qui oblige plus de texte par exemple mais d'autres aussi) . C'est quand on demande pages ignorées que les autres arrivent et comme par hasard, la majorité des pages sans résultats complémentaires affichées ont souvent du PR, les autres .... pas. Par contre, le compte Google a du fonctionné puisque après 3 - 400 sites, mon propre annuaire commencait à apparaître (alors qu'il est complètement dans les choix pour cette partie selon mes stats) - c'est une petite parenthèse comme quoi la barre de navigation avec PR et / ou compte google démarré est utilisée par GG pour donner les résultats selon l'internaute ... :?

Me suis plutôt intéressé à dogfree en comparant avec darut.eu (le mien). Pour Dogffree, petit texte et "grosse navigation" avec une page par site . Il -n'a pas l'air d'être sanctionné ... Ca donnerait l'idée que la navigation n'est pas prise en compte .... (même si j'ai des doutes), mais pas de duplicate content dans son cas possible sur le contenu.

Pense pas que c'est une question réellement de pourcentage, ca dépend plus de qui est en face. dans mes recherches duplicate, c'était souvent les mêmes qu'on retrouvait , doit y avoir une sorte de niveau de confiance qui fait passer quelques sites devant, les autres étant grisés. (au passage, félicitation au roi de la soumission automatique qui a réussit 2090 résultats identiques ... si son site n'a pas sauté, c'est franchement du bol)
En plus, une petite constatation de ces derniers mois, GG privilégie les petits annuaires ciblés, j'en ai déjà parlé par MP avec Blogger, sur gite + une ville précise, GG a mis en avant deux annuaires "locaux" qui reprennent les gîte de la ville (au détriment d'un gîte fait par un référenceur généralement coriace que je connaît, pourtant site en place depuis des années).
Il y a une part de % de duplicate mais aussi probablement un ou polusieurs facteur qui fait que GG déclasse un paquet de pages mais en garde quelques unes et ca ressemble plus à quelques sites qu'à des pages spécifiques, genre trusrank.
 
Discussions similaires
Haut