Taux de similarité entre 2 pages

Discussion dans 'Référencement Google' créé par gatcweb, 20 Janvier 2005.

  1. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    270
    J'aime reçus:
    0
    Bonjour,

    Je viens de découvrir "Similar Page checker" : http://www.webconfs.com/similar-page-checker.php qui permet de tester la similarité entre 2 pages.

    J'ai testé et oups 2 de mes pages sont similaires à 92%.

    Selon vous, à partir de quel taux de similarité Google considère-t-il 2 pages comme identique ? 70%, 80 %, 90% ou 100 % ?
    Et quels en sont les risques ? blaklistage ?

    PS : connaissez-vous d'autre URL permettant ce type de test ?

    Merci
     
  2. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    7 986
    J'aime reçus:
    0
    est ce que tu as comparé avec "ton oeil à toi" ces deux pages et reconnais-tu que ces deux pages peuvent etre similaire a 92% ?

    Quels critères semblent retenus pour arriver à 92% ? en d autres termes, as-tu reussi a identifier quels sont les 8% de difference entre ces deux pages ?

    a+
     
  3. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    270
    J'aime reçus:
    0
    J'ai peu de texte et j'emploie pratiquement les mêmes mots pour la des cription de 2 produits similaires.
     
  4. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    270
    J'aime reçus:
    0
  5. Jaunalgi
    Jaunalgi WRInaute occasionnel
    Inscrit:
    11 Août 2004
    Messages:
    278
    J'aime reçus:
    0
    J'ai fait le test sur deux pages identique à l'exception d'un texte de 600 caractères différents sur les deux pages et d'un formulaire de contact. J'obtiens 71%. A première vue, le taux me parait assez bas (j'aurais tablé sur 85% identique)

    100% en comparant les deux mêmes pages (on sait jamais :lol: )
    et 5% en comparant une page de mon site à une 404.
     
  6. Jaunalgi
    Jaunalgi WRInaute occasionnel
    Inscrit:
    11 Août 2004
    Messages:
    278
    J'aime reçus:
    0
    Message passé après mike006. Un bug dans l'heure?
     
  7. benjiiim
    benjiiim WRInaute discret
    Inscrit:
    9 Janvier 2004
    Messages:
    51
    J'aime reçus:
    0
    Salut,

    Oups, désolé, mais j'avais fais une petite erreur :oops: :wink:

    @+
     
  8. mike006
    mike006 WRInaute occasionnel
    Inscrit:
    20 Mars 2004
    Messages:
    375
    J'aime reçus:
    0
    C'est en tout cas un outil très intéressant que je ne connaissais pas, je ne pense pas que le risque avec un taux élevé soit le blacklistage, en effet pour certaines pages (dans mon cas description sommaire de photos) c'est très difficile de rendre les pages différentes les unes des autres ; par contre google peut ignorer certaines de ces pages trop semblables.
    Je serai toutefois curieux de connaître moi aussi le "seuil" critique.
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    833
    pourrais-tu préciser ce que tu veux dire car ce n'est pas assez clair (pour moi)... Merci
     
  10. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    270
    J'aime reçus:
    0
    Je ne pense pas, moi aussi, que le risque soit le blacklistage, mais plutôt une mise à l'écart de certaines pages pour "duplicate content". C'est pour cela que je me posais la question de connaître le "seuil critique".

    Du coup, je me pose une autre question : combien faut-il au minimum de mots différents dans une page ?
     
  11. mike006
    mike006 WRInaute occasionnel
    Inscrit:
    20 Mars 2004
    Messages:
    375
    J'aime reçus:
    0
    J'ai fait l'expérience sur 2 pages français anglais mêmes images mais texte différent, résultat : 61 %.
    Peut-être parce que j'ai pas mal de texte ? Tu en as bcp toi ?
     
  12. weborientalpointcom
    weborientalpointcom WRInaute discret
    Inscrit:
    17 Avril 2004
    Messages:
    79
    J'aime reçus:
    0
    bonjour,
    tu veux du 100% ?
    il te suffit d'un simple meta http-equiv="refresh" content="la page de renvoi".
    Et pourtant les 2 pages n'ont absolument aucune similitude.
    A+
     
  13. parisien94
    parisien94 WRInaute discret
    Inscrit:
    13 Juillet 2004
    Messages:
    106
    J'aime reçus:
    0
    Ce qui est interessant dans le sujet, c'est de savoir a partir de combien de % google renvoie des pages en pages similaires. Pou ma part, j'ai constaté que c'etait dans la premiere partie du code source que cela se jouait, et que le fait de changer des descriptions, keyword et quelques textes en haut de pages pouvaient faire revenir des pages similaires en pages normales. Mais aucune idée du %.
     
  14. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 644
    J'aime reçus:
    0
    attention à ne pas confondre :
    - la mesure du taux de similarité entre 2 pages complètes (utilisée pour déterminer s'il y a "duplicate content"),
    et
    - la mesure du taux de similarité entre 2 snipets qui permet de déterminer si une page doit être affichée ou ignorée car "à contenu similaire" (pour une requete donnée) et débouchant sur un message du type :

    "Pour limiter les résultats aux pages les plus pertinentes (total : xx), Google a ignoré certaines pages à contenu similaire.
    Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
    "

    tu peux très bien avoir 5% de contenu similaire entre 2 page et 100% de contenu similaire entre les 2 snipets de ces même pages (les snipets étant je le rappelle contruits dynamiquement en fonction de ta requete, sauf avec la cde "site" où il prend la description et/ou les textes du haut de la page, en tout cas dans le source) ... :wink:
     
  15. benjiiim
    benjiiim WRInaute discret
    Inscrit:
    9 Janvier 2004
    Messages:
    51
    J'aime reçus:
    0
    En fait, j'ai du faire une erreur dans mon test tout à l'heure... :oops: :wink:
    désolé
     
  16. Bobez
    Bobez WRInaute impliqué
    Inscrit:
    20 Mai 2004
    Messages:
    644
    J'aime reçus:
    0
    Tout à fait, je confirme que ça marche plutôt bien.
    Cela montre que Google ne doit certainement pas trancher à un pourcentage donné portant sur l'ensemble de la page (ce que fait "bêtement" l'outil présenté plus haut), mais plutôt que certains éléments (les meta desc/keywords par exemple) ont plus ou moins de poids.
     
  17. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 644
    J'aime reçus:
    0
    ben non Bobez, tu confonds aussi similarité des pages et similarité des snipets ...

    lorsque tu utilises la commande "site" pour vérifier tes pages et que tu en a 200 en pages ignorées (car trop similaires), ce sont les snipets qui sont similaires, pas les pages ...

    alors effectivement dans la mesure ou avec la commande site tu n'a pas de mots clés dans ta requete, il affiche le début du source (donc très souvent de la page) dans les snipets et effectivement dans ce cas, en jouant sur la description et les premiers texte de la page tu vas rendre les snipets suffisament # pour être tous affichés ...

    mais cela n'a rien à voir avec la similarité de 2 pages complètes ... :wink:
     
  18. Bobez
    Bobez WRInaute impliqué
    Inscrit:
    20 Mai 2004
    Messages:
    644
    J'aime reçus:
    0
    Effectivement, tu as raison...en fait je n'ai jamais entendu parler de "snipets" ! En fait, on s'y perd avec la similarité, le duplicate content, les snipets...il faudrait que quelqu'un de calé là dessus fasse un point sur tout cela, c'est pas très clair dans ma p'tite tête :)
     
  19. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 644
    J'aime reçus:
    0
    le snipet c'est la petite description que met google en dessous du titre de la page et qui est construit dynamiquement avec des bouts de phrases où apparaissent les mots clés, pris dans le texte de la page ...

    pour chaque requete #, tu auras donc pour une même page un snipet # ... :wink:
     
  20. net-annoo
    net-annoo Nouveau WRInaute
    Inscrit:
    21 Janvier 2004
    Messages:
    35
    J'aime reçus:
    0
    bonjour à vous

    c'est en effet de ça dont je parlai hier avec la similarité.. j'aurai du préciser.. je n'avai aussi pas remarqué qu'en fait :
    "relancer la recherche avec les pages ignorées"
    équivaut à juste rajouter &filter=0 ..
    merci en tout cas pour cette précision sur le snipet..
    a+
     
  21. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    7 986
    J'aime reçus:
    0
    pour faire sortir les pages de la "similitude", il faut donc en plus de changer titre, desc etc. changer le contenu... c est un comble !! :) j´aime bien cette idée. je pense que ca évite le deploiement en force de BDD a la fracacao....
    Reste a savoir si ce "degré de similutude" est exploité par les moteurs....
     
  22. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    833
    au fait as-tu un moyen simple de savoir si d'après Google 2 pages sont similaires ? Ou autrement dit, par quel symptôme tu es sûre à 100% que c'est d'une trop grande similarité qu'il s'agit ?
     
  23. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 644
    J'aime reçus:
    0
    à défaut d'autre chose, j'utilise (comme qq uns ici apparememnt) http://www.webconfs.com/similar-page-checker.php , mais le problème c'est que je ne sais pas exactement ce qu'il mesure (ce qu'il prend en compte et comment il en tient compte) ... en fait ce qu'il nous faudrait c'est un bon outil WRI, dont on connaitrait les specs ... :p

    pour moi, le problème de similarité de page a beaucoup joué sur la désindexation de nombre de pages dynamiques (catalogues produits e-commerce) des sites que je suis ... j'ai (nous avons) constaté qu'en dessous de 70% de similarité la désindexation a cessé et les pages ont commencé à être ré-indéxées ... :wink:
     
  24. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    833
    je ne te demandais pas de m'indiquer un outil mais une façon de savoir que Google juge les pages "trop" similaires. ou bien par une description précise des effets...

    d'après toi c'est par la désindexation, donc c'est pas vraiment évident surtout pour des tests sur un site qu'on ne connait pas.
     
  25. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 644
    J'aime reçus:
    0
    j'avais pas compris la question ... OUI pour moi le principal effet est la désindexation des pages (perte de la description, voire suppression de la page de l'index) ... :wink:
     
  26. snakeface
    snakeface WRInaute discret
    Inscrit:
    9 Octobre 2003
    Messages:
    184
    J'aime reçus:
    0
    Attention cendrillon tu risque de PERDRE des positions !
     
  27. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 644
    J'aime reçus:
    0
    pourquoi dis tu ça ? 8O
     
  28. Bobez
    Bobez WRInaute impliqué
    Inscrit:
    20 Mai 2004
    Messages:
    644
    J'aime reçus:
    0
    Comme je le disais plus haut, il semble calculer "bêtement" un pourcentage de ressemblance, sans prendre en compte la position dans la page.
    Je viens en effet de faire un petit test sur une page de 100octets, en créant une deuxième page dans laquelle j'ai supprimé un caractère dans le <title> par rapport à la première, et une 3e dans laquelle j'ai supprimé un caractère plus bas dans le texte de la page. Résultat avec l'outil: la page 2 a le même pourcentage que la page 3 par rapport à la page 1. Cet outil ne semble donc pas donner un poids différent en fonction de l'emplacement des caractères (balise title, meta, texte de la page, etc).
     
  29. net-annoo
    net-annoo Nouveau WRInaute
    Inscrit:
    21 Janvier 2004
    Messages:
    35
    J'aime reçus:
    0
    bjr,
    Pas si bêtement" que ça .. :) il te permet d'optimisé la similarité (graphique)
    la structure des pages tr td img mais aussi alt etc..
    et le deuxieme outils est juste la commande site :
    qui te permettra d'optimisé tes snipets.. meta desc etc..
    a+ :)
     
  30. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    pour info (je ne sais pas si cela peut aider)

    j'ai qque pages qui dispose de "snipets" (si je comprend bien, donc, d'un descriptif du contenu de la page situés entre le titre et l'url verte)

    en utilisant l'outil presenté ci dessus, celles ci obtiennent un % de ressemblance de 29.936813692412% (cas de deux pages prises au hasard)

    style de resultat :

    [​IMG]

    pour deux autres pages, j'obtiens, toujours avec le même outil, 65.640194489465% de similitude.

    Ces deux exemples au resultat fort differents, sont basés sur quatres pages disposant de snipets et correctement référencées sur google.

    Par contre, dans le cas suivant c'est l'écatombe :

    [​IMG]

    l'outil me renvoie pourtant :

    Que penser de tous cela ?

    dans un premier temps, j'obtiens un bon referencement a partir de pages fort semblables et d'un autre, c'est l'inverse qui se produit.

    Il faux noter que le contenu des pages correctement indexées est un contenu réel, alors que celles qui sont en 'pages similaires', est un enssemble de liens.

    Le contenu est il pris en compte dans sa forme (liens, tables, ... le squelete de la pages en somme) ou simplement dans ses mots.

    De plus je me suis livré a un autre test (qui mériterait d'être repris de façon rigoureuse si il n'éxiste pas déjà) J'ai pendant un temps décidé de construire dynamiquement les "Meta keywords" de mes pages.
    Pour ce faire, j'ai eu recour a un site qui proposait une étude des pages en resortant le pourcentage de mots et groupe de mot de la page. (http://www.outiref.com/)

    un exemple :

    [​IMG]

    Par cette technique, je pensais que mes meta serait plus pertinants que jamais dans la mesure ou l'analyse du contenu faite par google ne pouvais que coller avec la realité de ma page.

    Les resultats obtenus ne furent pas plus remarcables que ceux sans cette technique.

    Ma conclusion est que la similitude 'google' est basée sur plus de critères qu'il n'y parait. Je pense aussi que le fait de passer des parametres dans l'url est un facteur de plus pour atiser la méfiance de Google (il y a même des fois ou je me demande s'il n'ont pas mis un micro espion chez moi (lol ! parano le mec !)).

    Voila pour ma petite contribution, je suis toujours a la recherche de parametres formels pouvant donner une règle precise.

    PS : parmis mes similaires, je constate un roulement des pages ayant des snipets ... Affaire a suivre :wink:
     
  31. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    833
  32. yep
    yep WRInaute occasionnel
    Inscrit:
    3 Avril 2004
    Messages:
    252
    J'aime reçus:
    0
    j'ai également eu mon lot de pages similaires dans GG.
    Elles se ressemblaient à environ 75-80% (vive les templates :p

    Pour remedier à la désindexation de mes pages similaires, j'ai changer le début du code visible (après la balise body), et GG à stopper cette désindexation. Il semblerait donc que ce soit dû directement à cette modification, à confirmer. Les pages se ressemblent à près de 74%. Reste à connaître le taux exact que GG pourrait considérer comme seuil.
     
  33. gatcweb
    gatcweb WRInaute occasionnel
    Inscrit:
    5 Mai 2004
    Messages:
    270
    J'aime reçus:
    0
    Très intéressant...
    Juste une question, avec quel outil as-tu mesuré le taux de similarité de tes pages ("Elles se ressemblaient à environ 75-80%") ?
     
  34. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 875
    J'aime reçus:
    0
    Bonjour,

    Je trouve que le fait que des pages apparaissent sans description dans la commande site: est, en soi, un détail car cette commande n'est pas utilisée par les internautes "moyens".

    Existe-t-il un tutorial/résumé/bible qui explique les conséquences possibles et/ou démontrées de la similarité de deux pages ?

    Dans le même sens, est-il possible d'avoir des exemples de désindexation pour des pages au contenu similaire, mais différent ?

    Jean-Luc
     
  35. Al-Kanz
    Al-Kanz WRInaute discret
    Inscrit:
    15 Août 2007
    Messages:
    184
    J'aime reçus:
    0
    Je remonte la discussion pour savoir quel est le taux de similarité acceptable pour qu'une nouvelle page puisse être prise en compte sans par Google ?

    Merci de vos réponses
     
  36. kmenslow
    kmenslow WRInaute passionné
    Inscrit:
    7 Août 2006
    Messages:
    1 844
    J'aime reçus:
    0
    Personnellement, je cherche un taux à moins de 75%
     
  37. Al-Kanz
    Al-Kanz WRInaute discret
    Inscrit:
    15 Août 2007
    Messages:
    184
    J'aime reçus:
    0
    ah bon, tant que ça ? dans ce cas, c'est pas trop difficile.
     
  38. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 104
    J'aime reçus:
    0

    je pense qu'il voulais dire taux de différence, ou plutôt il cherche un taux de similarité de 25%, donc les 75% du texte restant devrait être diffèrent de l'autre !!!!!
     
  39. kmenslow
    kmenslow WRInaute passionné
    Inscrit:
    7 Août 2006
    Messages:
    1 844
    J'aime reçus:
    0
    Non, non :mrgreen:
    75% de similitude entre 2 articles est ma limite. Si je passe au-dessus je complète mon article. Si je suis en dessous de 75%, je laisse en l'état.
    De toute manières, ce genre de taux doit rester qu'un indicateur car le logiciel ne fait pas la différence entre le contenu et le menu, tandis que Google en est capable.
     
  40. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 104
    J'aime reçus:
    0
    à partir du moment ou le contenue rédactionnel est contenu entre Deux DIV, c'est pas difficile pour google de faire la différence avec le reste, d'autant plus que souvent un menu est entre deux UL ou OL et pour chaque bouton du menu y a un LI, donc pas difficile tout ça !!!!!
     
  41. kmenslow
    kmenslow WRInaute passionné
    Inscrit:
    7 Août 2006
    Messages:
    1 844
    J'aime reçus:
    0
    C'est pour cela que je ne suis pas très regardant sur le taux max :mrgreen:
     
  42. Al-Kanz
    Al-Kanz WRInaute discret
    Inscrit:
    15 Août 2007
    Messages:
    184
    J'aime reçus:
    0
    Je n'ai pas bien compris. Qu'est-ce qu'il faudrait faire pour permettre à Google de faire la différence ?
    merci
     
  43. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 104
    J'aime reçus:
    0
    utiliser link rel canonial

    déjà tu peux pas être DC si le contenu est présent sur le même NDD sauf si google peux accéder à ton site à la fois par -http://www.tonsite.fr et par -http:/tonsite.fr alors vaut mieux faire une redirection 301 pour les moteurs dans un .htaccess, pour les moteur de recherche, qui viendrait par -http://www.tonsite.fr/

    si non si tu contenue rédactionnel est présent sur deux NDD différents, essaye dans la mesure du possible d'en changer un peux plus de 75% et surtout de changer les ancres des clients qui doivent impérativement être différents.

    remarque moi je le fais pas pour les ancres, m'enfin faut tester qui vivra verra déjà mes capacité rédactionnel et de créativité m'empêche de pondre un contenue rédactionnel varier et agréable à lire, donc pour mois c'est un peux peine perdu.

    :mrgreen:
     
  44. luchduck
    luchduck Nouveau WRInaute
    Inscrit:
    6 Septembre 2007
    Messages:
    35
    J'aime reçus:
    0
    Ma limite est 25% de similitude sur les textes uniquement (+ les quelques balises Html nécessaire).
    Le pourcentage de similitude entre les pages diminuera un peu naturellement sur deux sites différents.
    70% semble être la limite à ne pas atteindre (ça ne veut pas dire que 60% est un bon pourcentage).
    Cela implique d'avoir un texte d'au moins 800 - 1000 caractères 8O si le fond est le même pour une 30ène de pages.
    De manière à ne pas être bloqué pour un plus grand nombre de page il faut augmenter la taille des textes, 2500 caractères conviendra pour des textes vraiment stylisés :roll: et en s'accordant un peu de liberté sur le fond.
    Un texte plus long sera aussi mieux considéré et positionné sur une gamme de mots-clés plus large.
    La discussion me paraît utile sur des fiches produits et des publications externes sur un même produit.
     
  45. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 825
    J'aime reçus:
    833
    Bienvenue sur WRI !

    Tu donnes des chiffres sans expliquer comment les calculer... Avec quel outil ?
     
  46. luchduck
    luchduck Nouveau WRInaute
    Inscrit:
    6 Septembre 2007
    Messages:
    35
    J'aime reçus:
    0
    Merci, je suis le forum et les conseils du site régulièrement depuis longtemps mais je n'avais encore jamais participer. J'essayerais d'être désormais plus actifs pour alimenter l'échange de connaissance.

    Les pourcentages annoncés plus haut sont calculés avec l'outil d'analyse des similarités de WRI (https://www.webrankinfo.com/outils/similarite.php) et l'outil de webconfs (http://www.webconfs.com/similar-page-checker.php) comme signalés par les intervenants précédents.
    Même si ces outils ne calculent pas comme Google, ils me permettent de contrôler grossièrement que le travail de rédaction est assez recherché (après la création / lecture de 100 articles sur des thèmes connexes il est difficile à dire si on ne se répète pas simplement en boucle sur un cycle d'une 20ène...).
    Les nombres de caractères sont calculés avec un compteur de lettres en ligne (http://www.compteurdelettres.com).

    A bientôt j'espère !

    Edito prochainement supprimé : Pour bien commencer, à partir de combien de message pourrais-je utiliser les BBCodes: ?
     
  47. lambi521
    lambi521 WRInaute passionné
    Inscrit:
    15 Juin 2010
    Messages:
    1 463
    J'aime reçus:
    0
    Bonjour à tous,

    Ce sujet m'intéresse énormément car je suis régulièrement confronté au problème de similarité entre deux pages, mais pas entre 2 sites différents, au sein du même site. Mon site est une boutique en ligne et forcément, la structure des fiches produits est toujours la même dans le catalogue, alors comment faire pour que 2 fiches produits ne soient pas similaires ? Car mes produits n'ont pas beaucoup d'informations textuelles, ce sont des cartouches pour imprimantes majoritairement.

    Pouvez-vous me donner des conseils pour que Google traite toute mes fiches produits normalement ? Mon sitemap produit me dit que 95% des pages sont indexées mais quand je regarde dans l'index Google, il me donne 4370 résultats, ce qui est mon nombre de produits pratiquement, seulement si je fais défiler les pages, à la page 70 il me dit "Google à ignoré certaines pages à contenu similaire..." Donc 70 pages x 10 résultats par page = 700 fiches produit OK et le reste en DC interne ?

    J'avais déjà connu ce problème au lancement du site et j'avais fait en sorte de les différencier au max en mettant en avant les différences entre les produits comme la référence, le modèle, la description, le code EAN et toutes s'étaient bien faite ré-indexées.

    J'ai mis ce nouveau design en ligne la semaine dernière, est-ce queça a pu les faires repasser en DC ? Quels conseils me donnez vous ? Car au niveau textuel il y toutes les informations, faut-il que je supprime ce qui est commun à toutes les pages, c'est à dire des rubriques dans la colonne de gauche par exemple ? Cela reviendrait à réduire le contenu similaire

    J'ai essayé l'outil que vous citez plus haut de webconf entre 2 cartouches de marque différente, il me donne 88% de similarité et celui-ci aussi. Par ailleurs, si je tape mon NDD sur Copyscape.com, il y a un résultat et il s'agit de la fiche de l'annuaire compare-le-net.com qui ajoute tout seul une rubrique "aperçu de la page" où il récupère le texte de ma page. Faut-il que je demande sa suppression ?

    Merci d'avance pour vos réponses
     
  48. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    Le seul truc que j'ai trouvé pour changer ça est de diminuer au maximum les zones fixes (genre menu, footer etc ...) et de maximiser l'apport éditorial.
    De toute façon il n'y a pas de secret, si deux pages sont proches il n'y a qu'en augmentant leur différence donc le contenu que tu peux changer les choses.
     
  49. lambi521
    lambi521 WRInaute passionné
    Inscrit:
    15 Juin 2010
    Messages:
    1 463
    J'aime reçus:
    0
    Merci pour la réponse,

    Concernant copyscape qui me ressort compare-le-net.com, je viens de demander au webmaster de supprimer ma fiche.

    As-tu visité mon site ? Que me conseille-tu de supprimer comme "zone identique" sur mes fiches produits ? Je ne peux pas supprimer le menu, de plus je sais que Google sais le détecter et qu'il ne fait pas partie du "contenu similaire" ce qui est totalement normal puisque évidemment le menu est le même sur toutes les pages d'un site :lol:

    Je pense qu'il faut que je "taille" ma colonne de gauche de mes fiches, en supprimant quelques boxes par exemple la boxe où il y a le lien pour facebook ? Sur le lien que j'ai mis pour tester la similarité ils disent qu'il faut être en dessous de 80%
     
  50. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    La partie "Fiche détaillée" est trop vide et idem pour "Informations complémentaires" qui devrait contenir beaucoup plus de texte.
    Je comprend bien que "pondre" du texte sur une cartouche d'imprimante est relativement "hard" mais cela me semble la seule solution.

    Autre chose si (je dis bien si) la quantité de code html entre dans le calcul de similarité de google, alors il serait bon de passer a des template plus performantes et d'externaliser le javascript.
     
  51. lambi521
    lambi521 WRInaute passionné
    Inscrit:
    15 Juin 2010
    Messages:
    1 463
    J'aime reçus:
    0
    C'est justement ça mon problème, j'ai ajouté la partie "Informations complémentaires" afin de pouvoir répéter les différences qu'il existe entre les nombreuses références. Je vais essayer de rajouter quelques phrases mais je ne vois pas ce qu'il y a à dire de plus...
    Qu'entends tu par là ? Mes fichiers .js sont déjà externes à part la fonction du bouton d'ajout au panier.

    Comment savoir si Google considère mes fiches produits comme similaires ? Certains disent que Google sait reconnaître un site ecommerce et qu'il en tient compte, d'autres disent même qu'il n'y a pas de Duplicate Content au sein d'un même site...

    Difficile de tirer des conclusions
     
  52. luchduck
    luchduck Nouveau WRInaute
    Inscrit:
    6 Septembre 2007
    Messages:
    35
    J'aime reçus:
    0
    Je dirais que tes informations complémentaires sont trop minces, ainsi tes pages sont considérées comme proche, Google fait donc le trie en les ignorant dans les résultats premiers.
    La solution de réduire le contenu fixe me semble bien, associé à un complément d'information plus fournis (au moins 500-800 caractères - ce qui veut peut être dire faire appel à un concepteur-rédacteur pour justement diversifier le plus possible ces textes sur une fond assez proche), l'ajout de commentaire peut éventuellement être une manière d'ajouter un peu de contenu à ces pages, j'opterais aussi pour plus de propositions de produits en lien.
     
  53. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    Je ne sais plus où je suis tombé sur un gros pavé de javascript, mais comme je le dis c'est important si et seulement si l'algo de calcul de similarité prend en compte le code (ce qui me semblerait crétin mais sait on jamais).

    faut trouver des solutions alternatives genre tips "le saviez vous ? bla bla bla ..." (bien sur différents pour chaque produit et ciblé sur le produit).
    Tu peut parler de ancres, des chaines de productions, de l'aspect écolo ou pas, passer des infos sur le choix d'un imprimante, des conseil de reciclage etc etc ... Bref c'est pas simple mais ça peut t'aider.

    En effet comme le souligne luchduck les avis utilisateurs peuvent être un bon appui (quite a en faire par tois même qulques un cradible (par genre "c'est moi le plus beau")).
     
  54. lambi521
    lambi521 WRInaute passionné
    Inscrit:
    15 Juin 2010
    Messages:
    1 463
    J'aime reçus:
    0
    Différents sur chaque produit... j'en ai 5000... le temps que je finisse Google aura coulé :lol:
    Tu laisserais ton avis sur une cartouche toi ?

    Bref il fait ch**r ce panda
     
  55. luchduck
    luchduck Nouveau WRInaute
    Inscrit:
    6 Septembre 2007
    Messages:
    35
    J'aime reçus:
    0
    Il n'y aura effectivement pas beaucoup de monde qui postera spontanément un commentaire.
    Mais regarde par exemple Amazon sur le même produit, tu peux par exemple inciter les acheteurs à laisser un petit commentaire après un achat, ou encore en ajouter par tes propres moyens de manière à gonfler un peu le contenu.
    Quoi qu'il en soit je dirais que la solution est le concepteur-rédacteur dans ton cas pour obtenir des descriptions assez pertinentes et plus longues et éviter le suicide après la 4999ème description. Vu le nombre de produit tu va t'en tirer pour assez chère, à voir si ça vaut le coup. + pense aussi aux balises alt des images qui créent de la différence.
     
  56. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    :D il y a des chances ....
    :lol: oui si c'est pour faire chier le modérateur ....

    De toute façon si tu ne peux plu diminuer d'un côté et ou augmenter de l'autre t'est maron c'est la quasi seule certitude.

    Ou alors tu charge la base des 5000 meilleurs dictons de France et de Navare et tu leur en ajoute un a chaque produit peut être que ça peut faire la farce. :D Genre entre deux achats de cartouche compléter votre culture G. Qui sais tu va peut être gagner la sorbonne comme client.
     
  57. lambi521
    lambi521 WRInaute passionné
    Inscrit:
    15 Juin 2010
    Messages:
    1 463
    J'aime reçus:
    0
    ça faisait une éternité que je n'avais pas entendu "t'es marron" :lol: lorsque j'avais lancé le site, Google avait tout indexé puis désindéxait les fiches produits petit à petit, j'avais supprimé le plus d'infos en commun (surtout dans la colonne de gauche) et elles avaient été réindéxées petit à petit. Là je viens de mettre le nouveau design où la colonne de gauche est la même sur tout le site, c'est peut-être là le problème. Mais j'ai fait des tests en supprimant des rubriques et le ratio similarité ne décend pas donc je ne comprend pas trop. En plus il faudrait être sûr de la fiabilité de ses outils (ce sont souvent des petits scripts fait à la va vite par des agences de ref pour récupérer des NDD et ensuite démarcher les clients donc...)

    Ca serait un excellent client avec tous les dossiers/rapports/mémoires qu'ils impriment, c'est bon pour le commerce ça :lol:

    Mes fiches produits sont bien indexées mais j'ai l'impression qu'elles sont comme "bridées" dans les SERPs, car elles sont optimisées sur les références des produits et parfois je suis 1er, parfois je suis page 4, c'est vraiment dûr à suivre. Mais ce qui me met la puce à l'oreille c'est quand je vois des pages dans les SERPs qui n'ont presque pas de rapport avec la requête mais qui sont devant moi quand même. J'étais mieux placé que ça avant, enfin j'ai l'impression, encore une fois c'est dur de suivre 5000 URLs
     
  58. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    j'utilise un autre truc pour virer le contenu similaire sur mes sites (genre les truc a la con comme les boutons de réseaux sociaux, le traditionnel "faire un lien" etc ... tout ce qui est répétitif et pas directement lié au contenu) . En fait je place une iframe que je charge en javascript après le chargement complet de la page.

    Techniquement si javascript n'est pas exécuté la page se présente sous la forme d'un contenu très ciblé sur le thème de la page, donc a priori c'est ce que voit le moteur en analyse de contenu et le visiteur lui voie en dernier apparaitre ce que je ne souhaite pas voir répété.

    Pour le visiteur c'est un gain car la page charge plus vite (le rendu CSS tiens compte de l'espace necessaire aux iframes même si elles sont vide) et il n'est donc pas concerné tout de suite par autre chose que mon contenu (même si dans les faits c'est trop rapide pour qu'il ai le temps d'y voir quoi que ce soit)

    pour le contenu disons "optionnel" genre les boutons j'aime etc ... une image clicable hébergée chez moi leur donne le moyen de charger l'iframe réseaux sociaux. Ils n'ont donc accès aux commandes que si ils cliquent sur l'image (gain de temps de chargement, de flicage (puisque rien d'affiché si image pas cliquée))

    Il faudrait voir si tu est capable de soustraire des pans importants de tes pages pour y appliquer cette technique. En ne laissant bien sur que les sections vitales. l'avantage serait de ne fournir en premier chargement (ce que va analyser le moteur) que le contenu ciblé. Donc pas forcement beaucoup mais top pertinent et du coup diversifié.

    Accessoirement cette technique permet aussi d'économiser des résolutions DNS comme n en voie beaucoup sur les pages faisant appel a de nombreux gadgets faceboobk, tweeter etc ... et ça c'est gros bénef surtout si le service est down ou chargé au moment ou ton internaute consulte la page. (en fait je n'ai plu sur mes pages que du contenu hébergé chez moi avec ça (sauf la pub quand il y en a))
     
  59. luchduck
    luchduck Nouveau WRInaute
    Inscrit:
    6 Septembre 2007
    Messages:
    35
    J'aime reçus:
    0
    J'ai utilisé la technique que tu décris pour afficher en différer un contenu récupéré d'un flux, de manière à ne pas devoir attendre la fin de la récupération pour afficher la page, ça peut être une solution...

    Sinon, peut être que le problème vient simplement du fait que ces pages ne devraient pas être des pages puisque tu n'a finalement pas un contenu suffisant pour en faire des pages distinctes. Ne serait-il pas intéressant de faire des pages regroupant plusieurs produits :idea: ?
     
  60. lambi521
    lambi521 WRInaute passionné
    Inscrit:
    15 Juin 2010
    Messages:
    1 463
    J'aime reçus:
    0
    Pouvez-vous m'aider à comprendre si mon site est en bonne santé ou pas ?

    Car je ne sais pas trop comment comprendre tout ça, j'explique :
    * dans GWT, sitemap produits -> 4131/4213 (mis à jour régulièrement et toujour en hausse)
    * commande site: + allinurl: -> 4410 résultats (mais message "Google a ignoré certaines pages..." page 70) Voir ici

    Je précise qu'avant, je n'avais aucun doute sur l'indexation et mes places dans les SERPs de mes fiches produits. Entre le nouveau et l'ancien design, rien a vraiment changé à part l'ajout du fil d'arianne, le changement "graphique" mais ça Google s'en fiche, la modification de la colonne de gauche mais contenu quasi identique à l'ancienne, ajout d'une balise strong sur le nom du produit dans "informations complémentaires", et réduction du code de la page (html, js, css).

    Ca, c'est Google qui le dit, pas mes clients. Un site marchand a toujours eu une fiche produit par produit, ce qui est normal. Je met tout ce qu'il y a à savoir sur mes produits, jusqu'au code barre que j'ai rajouté ! Google dicte les règles, impose sa vision des sites, on ne fais plus les sites pour les internautes mais pour Google et si en second temp ça plait aux internautes, tant mieux. Je ne trouve pas ça logique.

    Peut-être ai-je un probleme dans <title>, dans les H1, H2, H3..? Ou alors c'est un nouveau Panda ? Si je rajoute du texte spinné, pensez-vous que ça le ferais ou pas ? Car il y a toujours des mots qui seront commun, comme à l'heure actuelle, dans "informations complémentaires". Des conseils à me donner ,
     
Chargement...
Similar Threads - Taux similarité Forum Date
Taux de similarité contenu non logique Crawl et indexation Google, sitemaps 21 Juin 2016
quel taux de similarité maximum entre deux textes? Rédaction web et référencement 13 Juin 2013
Chute brutale du taux de rebond dans Google Analytics Google Analytics 15 Juillet 2020
Affichage chiffre d'affaires et taux de conversion zéro Google Analytics 26 Février 2020
Erreur taux de conversion commerce électronique dans Google Analytics Google Analytics 18 Janvier 2020
Taux de rebond extrêmement bas selon Google Analytics Google Analytics 9 Novembre 2019
Augmentation rapide du taux de rebond dans Google Analytics Google Analytics 7 Novembre 2019
Comment expliquer une énorme chute du taux de rebond Google Analytics 30 Octobre 2019
Taux de rebond en hausse Google Analytics 15 Octobre 2019
Impact des crawlers sur le taux de rebond et le référencement Crawl et indexation Google, sitemaps 19 Septembre 2019
Chute du taux de rebond depuis algo Medic Demandes d'avis et de conseils sur vos sites 4 Juillet 2019
Taux de crawling en chute Crawl et indexation Google, sitemaps 25 Mai 2019
Search Console Taux de crawling - Statistiques sur l'exploration Crawl et indexation Google, sitemaps 22 Mai 2019
Taux d'engagement Twitter extrêmement faible, comment améliorer ? Twitter 15 Mai 2019
comment savoir le taux de traffic d'une page concrète? Google Analytics 6 Avril 2019
le taux de rebond google analytics a chuté à -1% depuis que j'ai réédité mes balises GTM Google Analytics 2 Avril 2019
Taux de rebond et temps passé sur la page ? Référencement Google 17 Mars 2019
Taux de rebond très important / Autres conseils améliorations Problèmes de référencement spécifiques à vos sites 3 Mars 2019
stats taux de rebond et durée sessions Débuter en référencement 7 Février 2019
Taux de vue moyen annonces Discovery Youtube AdWords 5 Novembre 2018