Taux de similarité entre 2 pages

gatcweb · 20 Janvier 2005

Bonjour,

Je viens de découvrir "Similar Page checker" : http://www.webconfs.com/similar-page-checker.php qui permet de tester la similarité entre 2 pages.

J'ai testé et oups 2 de mes pages sont similaires à 92%.

Selon vous, à partir de quel taux de similarité Google considère-t-il 2 pages comme identique ? 70%, 80 %, 90% ou 100 % ?
Et quels en sont les risques ? blaklistage ?

PS : connaissez-vous d'autre URL permettant ce type de test ?

Merci

herveG · 20 Janvier 2005

est ce que tu as comparé avec "ton oeil à toi" ces deux pages et reconnais-tu que ces deux pages peuvent etre similaire a 92% ?

Quels critères semblent retenus pour arriver à 92% ? en d autres termes, as-tu reussi a identifier quels sont les 8% de difference entre ces deux pages ?

a+

gatcweb · 20 Janvier 2005

J'ai peu de texte et j'emploie pratiquement les mêmes mots pour la des cription de 2 produits similaires.

gatcweb · 20 Janvier 2005

OUPS !

Jaunalgi · 20 Janvier 2005

J'ai fait le test sur deux pages identique à l'exception d'un texte de 600 caractères différents sur les deux pages et d'un formulaire de contact. J'obtiens 71%. A première vue, le taux me parait assez bas (j'aurais tablé sur 85% identique)

100% en comparant les deux mêmes pages (on sait jamais :lol: )
et 5% en comparant une page de mon site à une 404.

Jaunalgi · 20 Janvier 2005

Jaunalgi a dit:
J'ai fait le test sur deux pages identique à l'exception d'un texte de 600 caractères différents sur les deux pages et d'un formulaire de contact. J'obtiens 71%. A première vue, le taux me parait assez bas (j'aurais tablé sur 85% identique)

100% en comparant les deux mêmes pages (on sait jamais :lol: )
et 5% en comparant une page de mon site à une 404.

Message passé après mike006. Un bug dans l'heure?

benjiiim · 20 Janvier 2005

Salut,

Oups, désolé, mais j'avais fais une petite erreur

:wink:

@+

mike006 · 20 Janvier 2005

Je viens de découvrir "Similar Page checker" : http://www.webconfs.com/similar-page-checker.php qui permet de tester la similarité entre 2 pages.

C'est en tout cas un outil très intéressant que je ne connaissais pas, je ne pense pas que le risque avec un taux élevé soit le blacklistage, en effet pour certaines pages (dans mon cas description sommaire de photos) c'est très difficile de rendre les pages différentes les unes des autres ; par contre google peut ignorer certaines de ces pages trop semblables.
Je serai toutefois curieux de connaître moi aussi le "seuil" critique.

WebRankInfo · 20 Janvier 2005

benjiiim a dit:
Cet outil ne me semble pas pertinent dutout, en effet, il ne prend pas en compte le texte soit le texte normal soit les alts ou les balises meta par exemple.

pourrais-tu préciser ce que tu veux dire car ce n'est pas assez clair (pour moi)... Merci

gatcweb · 20 Janvier 2005

Je ne pense pas, moi aussi, que le risque soit le blacklistage, mais plutôt une mise à l'écart de certaines pages pour "duplicate content". C'est pour cela que je me posais la question de connaître le "seuil critique".

Du coup, je me pose une autre question : combien faut-il au minimum de mots différents dans une page ?

mike006 · 20 Janvier 2005

En effet, j'ai comparé deux pages de mon site qui sont en fait les mêmes dans deux langues différentes et il me dit qu'elles sont similaires à 100%.

J'ai fait l'expérience sur 2 pages français anglais mêmes images mais texte différent, résultat : 61 %.
Peut-être parce que j'ai pas mal de texte ? Tu en as bcp toi ?

weborientalpointcom · 20 Janvier 2005

gatcweb a dit:
Bonjour,

Je viens de découvrir "Similar Page checker" : http://www.webconfs.com/similar-page-checker.php qui permet de tester la similarité entre 2 pages.

J'ai testé et oups 2 de mes pages sont similaires à 92%.

Selon vous, à partir de quel taux de similarité Google considère-t-il 2 pages comme identique ? 70%, 80 %, 90% ou 100 % ?
Et quels en sont les risques ? blaklistage ?

PS : connaissez-vous d'autre URL permettant ce type de test ?

Merci

bonjour,
tu veux du 100% ?
il te suffit d'un simple meta http-equiv="refresh" content="la page de renvoi".
Et pourtant les 2 pages n'ont absolument aucune similitude.
A+

parisien94 · 20 Janvier 2005

Ce qui est interessant dans le sujet, c'est de savoir a partir de combien de % google renvoie des pages en pages similaires. Pou ma part, j'ai constaté que c'etait dans la premiere partie du code source que cela se jouait, et que le fait de changer des descriptions, keyword et quelques textes en haut de pages pouvaient faire revenir des pages similaires en pages normales. Mais aucune idée du %.

Cendrillon · 20 Janvier 2005

attention à ne pas confondre :
- la mesure du taux de similarité entre 2 pages complètes (utilisée pour déterminer s'il y a "duplicate content"),
et
- la mesure du taux de similarité entre 2 snipets qui permet de déterminer si une page doit être affichée ou ignorée car "à contenu similaire" (pour une requete donnée) et débouchant sur un message du type :

"Pour limiter les résultats aux pages les plus pertinentes (total : xx), Google a ignoré certaines pages à contenu similaire.
Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées."

tu peux très bien avoir 5% de contenu similaire entre 2 page et 100% de contenu similaire entre les 2 snipets de ces même pages (les snipets étant je le rappelle contruits dynamiquement en fonction de ta requete, sauf avec la cde "site" où il prend la description et/ou les textes du haut de la page, en tout cas dans le source) ... :wink:

benjiiim · 20 Janvier 2005

WebRankInfo a dit:
benjiiim a dit:

Cet outil ne me semble pas pertinent dutout, en effet, il ne prend pas en compte le texte soit le texte normal soit les alts ou les balises meta par exemple.

Cliquez pour agrandir...

pourrais-tu préciser ce que tu veux dire car ce n'est pas assez clair (pour moi)... Merci

En fait, j'ai du faire une erreur dans mon test tout à l'heure...

:wink:
désolé

Bobez · 20 Janvier 2005

parisien94 a dit:
le fait de changer des descriptions, keyword et quelques textes en haut de pages pouvaient faire revenir des pages similaires en pages normales.

Tout à fait, je confirme que ça marche plutôt bien.
Cela montre que Google ne doit certainement pas trancher à un pourcentage donné portant sur l'ensemble de la page (ce que fait "bêtement" l'outil présenté plus haut), mais plutôt que certains éléments (les meta desc/keywords par exemple) ont plus ou moins de poids.

Cendrillon · 20 Janvier 2005

ben non Bobez, tu confonds aussi similarité des pages et similarité des snipets ...

lorsque tu utilises la commande "site" pour vérifier tes pages et que tu en a 200 en pages ignorées (car trop similaires), ce sont les snipets qui sont similaires, pas les pages ...

alors effectivement dans la mesure ou avec la commande site tu n'a pas de mots clés dans ta requete, il affiche le début du source (donc très souvent de la page) dans les snipets et effectivement dans ce cas, en jouant sur la description et les premiers texte de la page tu vas rendre les snipets suffisament # pour être tous affichés ...

mais cela n'a rien à voir avec la similarité de 2 pages complètes ... :wink:

Bobez · 20 Janvier 2005

Effectivement, tu as raison...en fait je n'ai jamais entendu parler de "snipets" ! En fait, on s'y perd avec la similarité, le duplicate content, les snipets...il faudrait que quelqu'un de calé là dessus fasse un point sur tout cela, c'est pas très clair dans ma p'tite tête

Cendrillon · 20 Janvier 2005

le snipet c'est la petite description que met google en dessous du titre de la page et qui est construit dynamiquement avec des bouts de phrases où apparaissent les mots clés, pris dans le texte de la page ...

pour chaque requete #, tu auras donc pour une même page un snipet # ... :wink:

net-annoo · 20 Janvier 2005

Cendrillon a dit:
le snipet c'est la petite description que met google en dessous du titre de la page et qui est construit dynamiquement avec des bouts de phrases où apparaissent les mots clés, pris dans le texte de la page ...
pour chaque requete #, tu auras donc pour une même page un snipet # ... :wink:

bonjour à vous

c'est en effet de ça dont je parlai hier avec la similarité.. j'aurai du préciser.. je n'avai aussi pas remarqué qu'en fait :
"relancer la recherche avec les pages ignorées"
équivaut à juste rajouter &filter=0 ..
merci en tout cas pour cette précision sur le snipet..
a+

herveG · 20 Janvier 2005

pour faire sortir les pages de la "similitude", il faut donc en plus de changer titre, desc etc. changer le contenu... c est un comble !!

j´aime bien cette idée. je pense que ca évite le deploiement en force de BDD a la fracacao....
Reste a savoir si ce "degré de similutude" est exploité par les moteurs....

WebRankInfo · 20 Janvier 2005

Cendrillon a dit:
mais cela n'a rien à voir avec la similarité de 2 pages complètes ... :wink:

au fait as-tu un moyen simple de savoir si d'après Google 2 pages sont similaires ? Ou autrement dit, par quel symptôme tu es sûre à 100% que c'est d'une trop grande similarité qu'il s'agit ?

Cendrillon · 20 Janvier 2005

à défaut d'autre chose, j'utilise (comme qq uns ici apparememnt) http://www.webconfs.com/similar-page-checker.php , mais le problème c'est que je ne sais pas exactement ce qu'il mesure (ce qu'il prend en compte et comment il en tient compte) ... en fait ce qu'il nous faudrait c'est un bon outil WRI, dont on connaitrait les specs ...

pour moi, le problème de similarité de page a beaucoup joué sur la désindexation de nombre de pages dynamiques (catalogues produits e-commerce) des sites que je suis ... j'ai (nous avons) constaté qu'en dessous de 70% de similarité la désindexation a cessé et les pages ont commencé à être ré-indéxées ... :wink:

WebRankInfo · 20 Janvier 2005

je ne te demandais pas de m'indiquer un outil mais une façon de savoir que Google juge les pages "trop" similaires. ou bien par une description précise des effets...

d'après toi c'est par la désindexation, donc c'est pas vraiment évident surtout pour des tests sur un site qu'on ne connait pas.

Cendrillon · 20 Janvier 2005

j'avais pas compris la question ... OUI pour moi le principal effet est la désindexation des pages (perte de la description, voire suppression de la page de l'index) ... :wink:

snakeface · 20 Janvier 2005

Attention cendrillon tu risque de PERDRE des positions !

Cendrillon · 20 Janvier 2005

pourquoi dis tu ça ? 8O

Bobez · 20 Janvier 2005

Cendrillon a dit:
à défaut d'autre chose, j'utilise (comme qq uns ici apparememnt) http://www.webconfs.com/similar-page-checker.php , mais le problème c'est que je ne sais pas exactement ce qu'il mesure (ce qu'il prend en compte et comment il en tient compte)

Comme je le disais plus haut, il semble calculer "bêtement" un pourcentage de ressemblance, sans prendre en compte la position dans la page.
Je viens en effet de faire un petit test sur une page de 100octets, en créant une deuxième page dans laquelle j'ai supprimé un caractère dans le <title> par rapport à la première, et une 3e dans laquelle j'ai supprimé un caractère plus bas dans le texte de la page. Résultat avec l'outil: la page 2 a le même pourcentage que la page 3 par rapport à la page 1. Cet outil ne semble donc pas donner un poids différent en fonction de l'emplacement des caractères (balise title, meta, texte de la page, etc).

net-annoo · 20 Janvier 2005

Bobez a dit:
Comme je le disais plus haut, il semble calculer "bêtement" un pourcentage de ressemblance, sans prendre en compte la position dans la page.

bjr,
Pas si bêtement" que ça ..

il te permet d'optimisé la similarité (graphique)
la structure des pages tr td img mais aussi alt etc..
et le deuxieme outils est juste la commande site :
qui te permettra d'optimisé tes snipets.. meta desc etc..
a+

zeb · 12 Février 2005

pour info (je ne sais pas si cela peut aider)

j'ai qque pages qui dispose de "snipets" (si je comprend bien, donc, d'un descriptif du contenu de la page situés entre le titre et l'url verte)

en utilisant l'outil presenté ci dessus, celles ci obtiennent un % de ressemblance de 29.936813692412% (cas de deux pages prises au hasard)

style de resultat :

pour deux autres pages, j'obtiens, toujours avec le même outil, 65.640194489465% de similitude.

Ces deux exemples au resultat fort differents, sont basés sur quatres pages disposant de snipets et correctement référencées sur google.

Par contre, dans le cas suivant c'est l'écatombe :

l'outil me renvoie pourtant :

http://pichot.julien.free.fr/recherche. ... NTGEOFFROY is 22.098873632616% percentage similar to http://pichot.julien.free.fr/recherche. ... +les+ponts

Que penser de tous cela ?

dans un premier temps, j'obtiens un bon referencement a partir de pages fort semblables et d'un autre, c'est l'inverse qui se produit.

Il faux noter que le contenu des pages correctement indexées est un contenu réel, alors que celles qui sont en 'pages similaires', est un enssemble de liens.

Le contenu est il pris en compte dans sa forme (liens, tables, ... le squelete de la pages en somme) ou simplement dans ses mots.

De plus je me suis livré a un autre test (qui mériterait d'être repris de façon rigoureuse si il n'éxiste pas déjà) J'ai pendant un temps décidé de construire dynamiquement les "Meta keywords" de mes pages.
Pour ce faire, j'ai eu recour a un site qui proposait une étude des pages en resortant le pourcentage de mots et groupe de mot de la page. (http://www.outiref.com/)

un exemple :

Par cette technique, je pensais que mes meta serait plus pertinants que jamais dans la mesure ou l'analyse du contenu faite par google ne pouvais que coller avec la realité de ma page.

Les resultats obtenus ne furent pas plus remarcables que ceux sans cette technique.

Ma conclusion est que la similitude 'google' est basée sur plus de critères qu'il n'y parait. Je pense aussi que le fait de passer des parametres dans l'url est un facteur de plus pour atiser la méfiance de Google (il y a même des fois ou je me demande s'il n'ont pas mis un micro espion chez moi (lol ! parano le mec !)).

Voila pour ma petite contribution, je suis toujours a la recherche de parametres formels pouvant donner une règle precise.

PS : parmis mes similaires, je constate un roulement des pages ayant des snipets ... Affaire a suivre :wink:

WebRankInfo · 21 Février 2005

je fais remonter ce topic très intéressant en indiquant que j'ai commencé un outil d'analyse de similarité, dont on discute ici : https://www.webrankinfo.com/forum/t/outil-calcul-de-similarite-textuelle-entre-2-pages-web.23295/

yep · 22 Février 2005

j'ai également eu mon lot de pages similaires dans GG.
Elles se ressemblaient à environ 75-80% (vive les templates

Pour remedier à la désindexation de mes pages similaires, j'ai changer le début du code visible (après la balise body), et GG à stopper cette désindexation. Il semblerait donc que ce soit dû directement à cette modification, à confirmer. Les pages se ressemblent à près de 74%. Reste à connaître le taux exact que GG pourrait considérer comme seuil.

gatcweb · 22 Février 2005

yep a dit:
j'ai également eu mon lot de pages similaires dans GG.
Elles se ressemblaient à environ 75-80% (...)
Pour remedier à la désindexation de mes pages similaires, j'ai changer le début du code visible (après la balise body), et GG à stopper cette désindexation. Il semblerait donc que ce soit dû directement à cette modification, à confirmer. Les pages se ressemblent à près de 74%. Reste à connaître le taux exact que GG pourrait considérer comme seuil.

Très intéressant...
Juste une question, avec quel outil as-tu mesuré le taux de similarité de tes pages ("Elles se ressemblaient à environ 75-80%") ?

jeanluc · 26 Février 2005

Bonjour,

Je trouve que le fait que des pages apparaissent sans description dans la commande site: est, en soi, un détail car cette commande n'est pas utilisée par les internautes "moyens".

Existe-t-il un tutorial/résumé/bible qui explique les conséquences possibles et/ou démontrées de la similarité de deux pages ?

Dans le même sens, est-il possible d'avoir des exemples de désindexation pour des pages au contenu similaire, mais différent ?

Jean-Luc

Al-Kanz · 22 Septembre 2009

Je remonte la discussion pour savoir quel est le taux de similarité acceptable pour qu'une nouvelle page puisse être prise en compte sans par Google ?

Merci de vos réponses

kmenslow · 22 Septembre 2009

Personnellement, je cherche un taux à moins de 75%

Al-Kanz · 22 Septembre 2009

kmenslow a dit:
Personnellement, je cherche un taux à moins de 75%

ah bon, tant que ça ? dans ce cas, c'est pas trop difficile.

mipc · 23 Septembre 2009

Al-Kanz a dit:
kmenslow a dit:

Personnellement, je cherche un taux à moins de 75%

Cliquez pour agrandir...

ah bon, tant que ça ? dans ce cas, c'est pas trop difficile.

je pense qu'il voulais dire taux de différence, ou plutôt il cherche un taux de similarité de 25%, donc les 75% du texte restant devrait être diffèrent de l'autre !!!!!

kmenslow · 24 Septembre 2009

Non, non :mrgreen:
75% de similitude entre 2 articles est ma limite. Si je passe au-dessus je complète mon article. Si je suis en dessous de 75%, je laisse en l'état.
De toute manières, ce genre de taux doit rester qu'un indicateur car le logiciel ne fait pas la différence entre le contenu et le menu, tandis que Google en est capable.

mipc · 24 Septembre 2009

à partir du moment ou le contenue rédactionnel est contenu entre Deux DIV, c'est pas difficile pour google de faire la différence avec le reste, d'autant plus que souvent un menu est entre deux UL ou OL et pour chaque bouton du menu y a un LI, donc pas difficile tout ça !!!!!

kmenslow · 24 Septembre 2009

C'est pour cela que je ne suis pas très regardant sur le taux max :mrgreen:

Al-Kanz · 4 Octobre 2009

mipc a dit:
à partir du moment ou le contenue rédactionnel est contenu entre Deux DIV, c'est pas difficile pour google de faire la différence avec le reste, d'autant plus que souvent un menu est entre deux UL ou OL et pour chaque bouton du menu y a un LI, donc pas difficile tout ça !!!!!

Je n'ai pas bien compris. Qu'est-ce qu'il faudrait faire pour permettre à Google de faire la différence ?
merci

mipc · 5 Octobre 2009

Al-Kanz a dit:
mipc a dit:

à partir du moment ou le contenue rédactionnel est contenu entre Deux DIV, c'est pas difficile pour google de faire la différence avec le reste, d'autant plus que souvent un menu est entre deux UL ou OL et pour chaque bouton du menu y a un LI, donc pas difficile tout ça !!!!!

Cliquez pour agrandir...

Je n'ai pas bien compris. Qu'est-ce qu'il faudrait faire pour permettre à Google de faire la différence ?
merci

utiliser link rel canonial

déjà tu peux pas être DC si le contenu est présent sur le même NDD sauf si google peux accéder à ton site à la fois par -http://www.tonsite.fr et par -http:/tonsite.fr alors vaut mieux faire une redirection 301 pour les moteurs dans un .htaccess, pour les moteur de recherche, qui viendrait par -http://www.tonsite.fr/

si non si tu contenue rédactionnel est présent sur deux NDD différents, essaye dans la mesure du possible d'en changer un peux plus de 75% et surtout de changer les ancres des clients qui doivent impérativement être différents.

remarque moi je le fais pas pour les ancres, m'enfin faut tester qui vivra verra déjà mes capacité rédactionnel et de créativité m'empêche de pondre un contenue rédactionnel varier et agréable à lire, donc pour mois c'est un peux peine perdu.

:mrgreen:

luchduck · 25 Janvier 2012

Ma limite est 25% de similitude sur les textes uniquement (+ les quelques balises Html nécessaire).
Le pourcentage de similitude entre les pages diminuera un peu naturellement sur deux sites différents.
70% semble être la limite à ne pas atteindre (ça ne veut pas dire que 60% est un bon pourcentage).
Cela implique d'avoir un texte d'au moins 800 - 1000 caractères 8O si le fond est le même pour une 30ène de pages.
De manière à ne pas être bloqué pour un plus grand nombre de page il faut augmenter la taille des textes, 2500 caractères conviendra pour des textes vraiment stylisés :roll: et en s'accordant un peu de liberté sur le fond.
Un texte plus long sera aussi mieux considéré et positionné sur une gamme de mots-clés plus large.
La discussion me paraît utile sur des fiches produits et des publications externes sur un même produit.

WebRankInfo · 25 Janvier 2012

Bienvenue sur WRI !

Tu donnes des chiffres sans expliquer comment les calculer... Avec quel outil ?

luchduck · 25 Janvier 2012

Merci, je suis le forum et les conseils du site régulièrement depuis longtemps mais je n'avais encore jamais participer. J'essayerais d'être désormais plus actifs pour alimenter l'échange de connaissance.

Les pourcentages annoncés plus haut sont calculés avec l'outil d'analyse des similarités de WRI (https://www.webrankinfo.com/outils/similarite.php) et l'outil de webconfs (http://www.webconfs.com/similar-page-checker.php) comme signalés par les intervenants précédents.
Même si ces outils ne calculent pas comme Google, ils me permettent de contrôler grossièrement que le travail de rédaction est assez recherché (après la création / lecture de 100 articles sur des thèmes connexes il est difficile à dire si on ne se répète pas simplement en boucle sur un cycle d'une 20ène...).
Les nombres de caractères sont calculés avec un compteur de lettres en ligne (http://www.compteurdelettres.com).

A bientôt j'espère !

Edito prochainement supprimé : Pour bien commencer, à partir de combien de message pourrais-je utiliser les BBCodes: ?

lambi521 · 26 Janvier 2012

Bonjour à tous,

Ce sujet m'intéresse énormément car je suis régulièrement confronté au problème de similarité entre deux pages, mais pas entre 2 sites différents, au sein du même site. Mon site est une boutique en ligne et forcément, la structure des fiches produits est toujours la même dans le catalogue, alors comment faire pour que 2 fiches produits ne soient pas similaires ? Car mes produits n'ont pas beaucoup d'informations textuelles, ce sont des cartouches pour imprimantes majoritairement.

Pouvez-vous me donner des conseils pour que Google traite toute mes fiches produits normalement ? Mon sitemap produit me dit que 95% des pages sont indexées mais quand je regarde dans l'index Google, il me donne 4370 résultats, ce qui est mon nombre de produits pratiquement, seulement si je fais défiler les pages, à la page 70 il me dit "Google à ignoré certaines pages à contenu similaire..." Donc 70 pages x 10 résultats par page = 700 fiches produit OK et le reste en DC interne ?

J'avais déjà connu ce problème au lancement du site et j'avais fait en sorte de les différencier au max en mettant en avant les différences entre les produits comme la référence, le modèle, la description, le code EAN et toutes s'étaient bien faite ré-indexées.

J'ai mis ce nouveau design en ligne la semaine dernière, est-ce queça a pu les faires repasser en DC ? Quels conseils me donnez vous ? Car au niveau textuel il y toutes les informations, faut-il que je supprime ce qui est commun à toutes les pages, c'est à dire des rubriques dans la colonne de gauche par exemple ? Cela reviendrait à réduire le contenu similaire

J'ai essayé l'outil que vous citez plus haut de webconf entre 2 cartouches de marque différente, il me donne 88% de similarité et celui-ci aussi. Par ailleurs, si je tape mon NDD sur Copyscape.com, il y a un résultat et il s'agit de la fiche de l'annuaire compare-le-net.com qui ajoute tout seul une rubrique "aperçu de la page" où il récupère le texte de ma page. Faut-il que je demande sa suppression ?

Merci d'avance pour vos réponses

zeb · 26 Janvier 2012

Le seul truc que j'ai trouvé pour changer ça est de diminuer au maximum les zones fixes (genre menu, footer etc ...) et de maximiser l'apport éditorial.
De toute façon il n'y a pas de secret, si deux pages sont proches il n'y a qu'en augmentant leur différence donc le contenu que tu peux changer les choses.

lambi521 · 26 Janvier 2012

Merci pour la réponse,

Concernant copyscape qui me ressort compare-le-net.com, je viens de demander au webmaster de supprimer ma fiche.

As-tu visité mon site ? Que me conseille-tu de supprimer comme "zone identique" sur mes fiches produits ? Je ne peux pas supprimer le menu, de plus je sais que Google sais le détecter et qu'il ne fait pas partie du "contenu similaire" ce qui est totalement normal puisque évidemment le menu est le même sur toutes les pages d'un site :lol:

Je pense qu'il faut que je "taille" ma colonne de gauche de mes fiches, en supprimant quelques boxes par exemple la boxe où il y a le lien pour facebook ? Sur le lien que j'ai mis pour tester la similarité ils disent qu'il faut être en dessous de 80%

zeb · 26 Janvier 2012

lambi521 a dit:
As-tu visité mon site ?

La partie "Fiche détaillée" est trop vide et idem pour "Informations complémentaires" qui devrait contenir beaucoup plus de texte.
Je comprend bien que "pondre" du texte sur une cartouche d'imprimante est relativement "hard" mais cela me semble la seule solution.

Autre chose si (je dis bien si) la quantité de code html entre dans le calcul de similarité de google, alors il serait bon de passer a des template plus performantes et d'externaliser le javascript.

lambi521 · 26 Janvier 2012

La partie "Fiche détaillée" est trop vide et idem pour "Informations complémentaires" qui devrait contenir beaucoup plus de texte.

C'est justement ça mon problème, j'ai ajouté la partie "Informations complémentaires" afin de pouvoir répéter les différences qu'il existe entre les nombreuses références. Je vais essayer de rajouter quelques phrases mais je ne vois pas ce qu'il y a à dire de plus...

externaliser le javascript

Qu'entends tu par là ? Mes fichiers .js sont déjà externes à part la fonction du bouton d'ajout au panier.

Comment savoir si Google considère mes fiches produits comme similaires ? Certains disent que Google sait reconnaître un site ecommerce et qu'il en tient compte, d'autres disent même qu'il n'y a pas de Duplicate Content au sein d'un même site...

Difficile de tirer des conclusions

luchduck · 26 Janvier 2012

Je dirais que tes informations complémentaires sont trop minces, ainsi tes pages sont considérées comme proche, Google fait donc le trie en les ignorant dans les résultats premiers.
La solution de réduire le contenu fixe me semble bien, associé à un complément d'information plus fournis (au moins 500-800 caractères - ce qui veut peut être dire faire appel à un concepteur-rédacteur pour justement diversifier le plus possible ces textes sur une fond assez proche), l'ajout de commentaire peut éventuellement être une manière d'ajouter un peu de contenu à ces pages, j'opterais aussi pour plus de propositions de produits en lien.

zeb · 26 Janvier 2012

lambi521 a dit:
Qu'entends tu par là ? Mes fichiers .js sont déjà externes à part la fonction du bouton d'ajout au panier.

Je ne sais plus où je suis tombé sur un gros pavé de javascript, mais comme je le dis c'est important si et seulement si l'algo de calcul de similarité prend en compte le code (ce qui me semblerait crétin mais sait on jamais).

Je vais essayer de rajouter quelques phrases mais je ne vois pas ce qu'il y a à dire de plus...

faut trouver des solutions alternatives genre tips "le saviez vous ? bla bla bla ..." (bien sur différents pour chaque produit et ciblé sur le produit).
Tu peut parler de ancres, des chaines de productions, de l'aspect écolo ou pas, passer des infos sur le choix d'un imprimante, des conseil de reciclage etc etc ... Bref c'est pas simple mais ça peut t'aider.

En effet comme le souligne luchduck les avis utilisateurs peuvent être un bon appui (quite a en faire par tois même qulques un cradible (par genre "c'est moi le plus beau")).

lambi521 · 26 Janvier 2012

faut trouver des solutions alternatives genre tips "le saviez vous ? bla bla bla ..." (bien sur différents pour chaque produit et ciblé sur le produit)

Différents sur chaque produit... j'en ai 5000... le temps que je finisse Google aura coulé :lol:

En effet comme le souligne luchduck les avis utilisateurs peuvent être un bon appui (quite a en faire par tois même qulques un cradible (par genre "c'est moi le plus beau")

Tu laisserais ton avis sur une cartouche toi ?

Bref il fait ch**r ce panda

luchduck · 26 Janvier 2012

Il n'y aura effectivement pas beaucoup de monde qui postera spontanément un commentaire.
Mais regarde par exemple Amazon sur le même produit, tu peux par exemple inciter les acheteurs à laisser un petit commentaire après un achat, ou encore en ajouter par tes propres moyens de manière à gonfler un peu le contenu.
Quoi qu'il en soit je dirais que la solution est le concepteur-rédacteur dans ton cas pour obtenir des descriptions assez pertinentes et plus longues et éviter le suicide après la 4999ème description. Vu le nombre de produit tu va t'en tirer pour assez chère, à voir si ça vaut le coup. + pense aussi aux balises alt des images qui créent de la différence.

zeb · 26 Janvier 2012

lambi521 a dit:
Différents sur chaque produit... j'en ai 5000... le temps que je finisse Google aura coulé :lol:

il y a des chances ....

lambi521 a dit:
Tu laisserais ton avis sur une cartouche toi ?

:lol: oui si c'est pour faire chier le modérateur ....

De toute façon si tu ne peux plu diminuer d'un côté et ou augmenter de l'autre t'est maron c'est la quasi seule certitude.

Ou alors tu charge la base des 5000 meilleurs dictons de France et de Navare et tu leur en ajoute un a chaque produit peut être que ça peut faire la farce.

Genre entre deux achats de cartouche compléter votre culture G. Qui sais tu va peut être gagner la sorbonne comme client.

lambi521 · 27 Janvier 2012

De toute façon si tu ne peux plu diminuer d'un côté et ou augmenter de l'autre t'est maron c'est la quasi seule certitude.

ça faisait une éternité que je n'avais pas entendu "t'es marron" :lol: lorsque j'avais lancé le site, Google avait tout indexé puis désindéxait les fiches produits petit à petit, j'avais supprimé le plus d'infos en commun (surtout dans la colonne de gauche) et elles avaient été réindéxées petit à petit. Là je viens de mettre le nouveau design où la colonne de gauche est la même sur tout le site, c'est peut-être là le problème. Mais j'ai fait des tests en supprimant des rubriques et le ratio similarité ne décend pas donc je ne comprend pas trop. En plus il faudrait être sûr de la fiabilité de ses outils (ce sont souvent des petits scripts fait à la va vite par des agences de ref pour récupérer des NDD et ensuite démarcher les clients donc...)

Ou alors tu charge la base des 5000 meilleurs dictons de France et de Navare et tu leur en ajoute un a chaque produit peut être que ça peut faire la farce. Genre entre deux achats de cartouche compléter votre culture G. Qui sais tu va peut être gagner la sorbonne comme client.

Ca serait un excellent client avec tous les dossiers/rapports/mémoires qu'ils impriment, c'est bon pour le commerce ça :lol:

Mes fiches produits sont bien indexées mais j'ai l'impression qu'elles sont comme "bridées" dans les SERPs, car elles sont optimisées sur les références des produits et parfois je suis 1er, parfois je suis page 4, c'est vraiment dûr à suivre. Mais ce qui me met la puce à l'oreille c'est quand je vois des pages dans les SERPs qui n'ont presque pas de rapport avec la requête mais qui sont devant moi quand même. J'étais mieux placé que ça avant, enfin j'ai l'impression, encore une fois c'est dur de suivre 5000 URLs

zeb · 27 Janvier 2012

j'utilise un autre truc pour virer le contenu similaire sur mes sites (genre les truc a la con comme les boutons de réseaux sociaux, le traditionnel "faire un lien" etc ... tout ce qui est répétitif et pas directement lié au contenu) . En fait je place une iframe que je charge en javascript après le chargement complet de la page.

Techniquement si javascript n'est pas exécuté la page se présente sous la forme d'un contenu très ciblé sur le thème de la page, donc a priori c'est ce que voit le moteur en analyse de contenu et le visiteur lui voie en dernier apparaitre ce que je ne souhaite pas voir répété.

Pour le visiteur c'est un gain car la page charge plus vite (le rendu CSS tiens compte de l'espace necessaire aux iframes même si elles sont vide) et il n'est donc pas concerné tout de suite par autre chose que mon contenu (même si dans les faits c'est trop rapide pour qu'il ai le temps d'y voir quoi que ce soit)

pour le contenu disons "optionnel" genre les boutons j'aime etc ... une image clicable hébergée chez moi leur donne le moyen de charger l'iframe réseaux sociaux. Ils n'ont donc accès aux commandes que si ils cliquent sur l'image (gain de temps de chargement, de flicage (puisque rien d'affiché si image pas cliquée))

Il faudrait voir si tu est capable de soustraire des pans importants de tes pages pour y appliquer cette technique. En ne laissant bien sur que les sections vitales. l'avantage serait de ne fournir en premier chargement (ce que va analyser le moteur) que le contenu ciblé. Donc pas forcement beaucoup mais top pertinent et du coup diversifié.

Accessoirement cette technique permet aussi d'économiser des résolutions DNS comme n en voie beaucoup sur les pages faisant appel a de nombreux gadgets faceboobk, tweeter etc ... et ça c'est gros bénef surtout si le service est down ou chargé au moment ou ton internaute consulte la page. (en fait je n'ai plu sur mes pages que du contenu hébergé chez moi avec ça (sauf la pub quand il y en a))

luchduck · 27 Janvier 2012

J'ai utilisé la technique que tu décris pour afficher en différer un contenu récupéré d'un flux, de manière à ne pas devoir attendre la fin de la récupération pour afficher la page, ça peut être une solution...

Sinon, peut être que le problème vient simplement du fait que ces pages ne devraient pas être des pages puisque tu n'a finalement pas un contenu suffisant pour en faire des pages distinctes. Ne serait-il pas intéressant de faire des pages regroupant plusieurs produits :idea: ?

lambi521 · 30 Janvier 2012

Pouvez-vous m'aider à comprendre si mon site est en bonne santé ou pas ?

Car je ne sais pas trop comment comprendre tout ça, j'explique :
* dans GWT, sitemap produits -> 4131/4213 (mis à jour régulièrement et toujour en hausse)
* commande site: + allinurl: -> 4410 résultats (mais message "Google a ignoré certaines pages..." page 70) Voir ici

Je précise qu'avant, je n'avais aucun doute sur l'indexation et mes places dans les SERPs de mes fiches produits. Entre le nouveau et l'ancien design, rien a vraiment changé à part l'ajout du fil d'arianne, le changement "graphique" mais ça Google s'en fiche, la modification de la colonne de gauche mais contenu quasi identique à l'ancienne, ajout d'une balise strong sur le nom du produit dans "informations complémentaires", et réduction du code de la page (html, js, css).

Sinon, peut être que le problème vient simplement du fait que ces pages ne devraient pas être des pages puisque tu n'a finalement pas un contenu suffisant pour en faire des pages distinctes.

Ca, c'est Google qui le dit, pas mes clients. Un site marchand a toujours eu une fiche produit par produit, ce qui est normal. Je met tout ce qu'il y a à savoir sur mes produits, jusqu'au code barre que j'ai rajouté ! Google dicte les règles, impose sa vision des sites, on ne fais plus les sites pour les internautes mais pour Google et si en second temp ça plait aux internautes, tant mieux. Je ne trouve pas ça logique.

Peut-être ai-je un probleme dans <title>, dans les H1, H2, H3..? Ou alors c'est un nouveau Panda ? Si je rajoute du texte spinné, pensez-vous que ça le ferais ou pas ? Car il y a toujours des mots qui seront commun, comme à l'heure actuelle, dans "informations complémentaires". Des conseils à me donner ,