Duplicate meta content

Discussion dans 'Débuter en référencement' créé par Cellys, 16 Juin 2016.

  1. Cellys
    Cellys Nouveau WRInaute
    Inscrit:
    14 Avril 2016
    Messages:
    1
    J'aime reçus:
    0
    Bonjour à tous !

    Bon je sais cette question a du être posé un million de fois, mais même avec une recherche... Je ne trouve pas la solution.

    Je vous explique. J'ai un site sous Prestashop 1.6.0.14. J'ai une gamme de plus de 160 produits répartis dans plusieurs catégories.
    Je pense avoir plus de 500 pages (à peu de chose près)
    Malheureusement j'ai du duplicate content sur une centaine de page (titre, description et meta description). Mais je n'arrive pas à régler ça.
    Grosso modo voici un exemple de page où j'ai du duplicate content :
    www.nomdemonsite.fr/monblog
    www.nomdemonsite.fr/monblog?p=2
    www.nomdemonsite.fr/categorieproduitdeouf
    www.nomdemonsite.fr/categorieproduitdeouf?=p2
    www.nomdemonsite.fr/categorieproduitdeouf?p=3
    etc.

    Mon contenu dupliqué est en faite par les "secondes pages" de chacune de mes catégories.
    Mon site est sous un CMS, je n'aime donc pas toucher au code source de la page. Prestashop ne facilite pas vraiment cette opération et dans tous les cas, le site a été développé avec un langage que je ne connais pas (.php et .tpl). Donc pas possible de rentrer dans le code source de la page.

    Avez-vous des conseils à me donner ? Merci d'avance,
     
  2. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
  3. wissemovitch
    wissemovitch Nouveau WRInaute
    Inscrit:
    15 Juin 2016
    Messages:
    5
    J'aime reçus:
    0
    Bonjour,

    Une méthode très simple est de mettre la ligne suivante dans robots.txt

    Disallow: /*?p=

    pour bloquer toutes les paginations à partir de la 2° page
     
  4. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
    C'est une connerie de bloquer la pagination. Comment Google accède aux articles qui sont listés sur les pages > 1 si tu le fais ?
     
  5. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    Pour faire simple, robots.txt est obligatoire et peut se limiter à un fichier vide.
    Tout ce qu'on ajoute dedans est inutile, voir même nocif

    Pour régler le problème des duplicate content il faut ajouter une balise "canonical" qui pointe vers la page considérée comme la "vraie" page.
    Dans le cas du blog, ça interdirait le référencement des pages 2 et suivantes du blog. Dans ce cas il faut trouver un moyen pour avoir un titre et une méta description différente pour chaque page du blog (et ne pas utiliser la balise canonical)
     
  6. patrick_lejeune
    patrick_lejeune WRInaute occasionnel
    Inscrit:
    1 Avril 2016
    Messages:
    426
    J'aime reçus:
    0
    D'abord l'adresse réelle du site

    et perdre l'indexation des toutes les pages 2, 3 ... des résultats. Evite de répondre n'importe quoi (merci)
    Au passage pour continuer les conneries, te conseille de modifier (si tu ne veux plus de visiteurs
    > Indigène, avant de mettre des réponses passe partout inutiles: lis le post de départ.
    > Cellys: 1 adresse réelle du site - 2. qu'est ce qui a été bricolé sur le CMS prestashop?
     
  7. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    Peux-tu m'expliquer en quoi mes réponses sont "passe partout" et "inutiles" étant donné qu'elles sont juste et pertinentes ?

    C'est toujours mieux, même si j'ai peut-être commis une erreur dans la réponse (merci de m'indiquer où), que de critiquer les réponses des autres sans donner aucune vraie réponse, non ?

    J'accepte et reconnait parfaitement les erreurs si on veut bien m'expliquer où j'en ai fait. A ma connaissance, je n'en voit pas, même après avoir relu plusieurs fois mon intervention. :oops:

    Et je ne vois pas en quoi l'url nous apporterait plus. Si on a pris la peine de lire le post de départ tout est expliqué et d'une façon on ne peut plus claire. Donc TOI, commence à relire le post initial
     
  8. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    Pourquoi un fichier vide serait-il obligatoire ? :D
    Ah bon ? Tu peux développer ?

    C'est prendre une enclume pour écraser une mouche. Il y a plein d'autres solutions...
    En particulier le noindex, follow , qui ne bloque pas le bot, à la différence du disallow dans le fichier robots.txt

    Peux tu expliquer l'intérêt d'indexer des "pages suivantes" ? Ce qui compte, c'est que Google puisse les crawler, pour arriver aux articles et produits individuels qui se trouvent dessus.

    Dans une boutique, il est intéressant de positionner une page d'accueil de catégorie, et des pages produits. Pareil dans un blog, articles, première page des taxonomies. Le reste n'a pas d'intérêt...
     
  9. clementGou
    clementGou Nouveau WRInaute
    Inscrit:
    12 Juin 2016
    Messages:
    4
    J'aime reçus:
    0
    Le débat est passionnant mais je serai curieux de lire la vraie solution ? Effectivement j'aurai eu tendance à bloquer le référencement des pages P2 P3 etc... mais pas le crawl. Donc j'ai hate de connaitre la solution !
     
  10. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
  11. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    Comme toujours en référencement, il n'y a pas UNE solution. Perso, j'applique le "noindex, follow", que tu peux paramétrer dans les plugins SEO
     
  12. neektoo
    neektoo Nouveau WRInaute
    Inscrit:
    24 Mars 2014
    Messages:
    29
    J'aime reçus:
    0
    @Cellys

    Dans ce cas ci la bonne solution est celle proposée par Indigene,

    Il te faudra un module ici que tu dois paramétrer : http://addons.prestashop.com/fr/recherche?search_query=canonical

    Nous on utilise le canonical url pro

    Et tu vérifies ensuite avec ça : http://www.seoreviewtools.com/canonical-url-location-checker/



    Désolé Marie, mais dans ce cas c'est la solution parfaite qui permet l'indexation tout en aidant google à comprendre que c'est la même page, et elle est simple à mettre en oeuvre, pas un truc compliqué comme tu sous-entends à indigene qui a donné la meilleure réponse.

    Proposer une solution qui consiste à bloquer l'indexation.... probablement de commentaires utiles d'utilisateurs...... ce que google adore.... n'est pas correct. Je pense qu'il vaut mieux privilégier la qualité plutôt que la quantité de réponses.

    ... quand je ne veux pas faire le ménage, je recouvre le bordel par un joli drap blanc... mais c'est pas la vraie bonne solution... j'en sais quelque chose :D

    Edit : Le paramètre p fonctionne pour les multiples pages d'une catégorie comme pour les commentaires produits
     
  13. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    Désolée, Nee, mais je maintiens, il y a plusieurs solutions possibles, en fonction du site.

    J'ai du mal à comprendre ce que tu dis, je crois que tu n'as pas bien lu ... j'ignorais que les commentaires utilisateurs se trouvaient sur les pages de catégories de produit ? Elles sont sur les pages produits, qui ne sont pas bloquées à l'indexation. Privilégier la qualité de lecture plutôt que la rapidité de réponse ?

    En ce qui concerne les pages de catégories de produit, ce qui est le seul truc dont on parle ici ... perso je considère qu'une bonne page d'accueil de catégorie comprend du texte, des produits mis en avant, et que, par contre, les pages suivantes n'ont pas à répéter cela, qui serait lassant pour le lecteur. Il n'y a donc aucun intérêt à favoriser l'indexation des pages suivantes, puisque on souhaite que le client arrive sur la première page avec les messages marketing, non ?

    Quant à dire que bloquer l'indexation sur les pages "suivantes" est compliqué à faire... euh, comment dire ? 5 lignes de code ? Mais si tu veux une solution simple, tu reprends la première proposition de Google : "ne rien faire" :)
     
  14. neektoo
    neektoo Nouveau WRInaute
    Inscrit:
    24 Mars 2014
    Messages:
    29
    J'aime reçus:
    0
    tu n'as pas lu le edit de mon post ?

    C'est vraiment incroyable de dire ça "Privilégier la qualité de lecture plutôt que la rapidité de réponse ?" c'est le monde à l'envers.
     
  15. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    Ah ? :D parce que me dire "Je pense qu'il vaut mieux privilégier la qualité plutôt que la quantité de réponses." c'est le monde à l'endroit ? :D :D :D

    Bon allez, il est tard, contrairement à toi je pense qu'il y a plusieurs méthodes possibles, j'explique juste pourquoi j'en privilégie une. On va pas épiloguer 100 ans là dessus ^^
     
  16. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    Ce n'est pas le fichier vide qui est obligatoire, c'est la présence d'un fichier robots.txt pour éviter les erreurs 404 retournées par le serveur.
    Mais ce qu'il y a dans le robots.txt peut être vide ou se limiter à User-agent: *

    Oui, je peux
    On peut y ajouter des listes de répertoires interdits au crawl mais si ces répertoires ont déjà été indexés google ne peut plus accéder aux fichiers pour se rendre compte par exemple qu'ils sont maintenant en "noindex"
    Et une liste de répertoires "privés" interdits aux robots c'est sans doute la première chose à laquelle les hackers vont s'attaquer, donc c'est potentiellement nocif de les lister dans un fichier. C'est comme si tu disais à un petit enfant "tu n'as pas le droit d'ouvrir cette porte".... c'est la première chose qu'il fera quand tu auras le dos tourné

    Peux-tu expliquer l'intérêt de ne pas les indexer ? [/quote]

    Ca ajoute du contenu associé à d'autres contenus qui peuvent ressortir en première page de résultats alors que les pages article qui ne sont pas associées à ces autres contenus ne ressortiraient pas sur les mêmes requêtes.
     
  17. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    Perso, si une page n'est pas à indexer, je ne la publie pas sur le web. C'est encore plus radical
    Quelques exception avec les pages de formulaire
     
  18. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    C'est bien la seule chose sur laquelle nous sommes tous d'accord
    Il existe de bonnes méthodes mais aussi de mauvaises méthodes... au final ça fait plusieurs méthodes plus ou moins bien en fonction de chaque cas particulier

    Et personne n'a dit qu'on devait répéter le même texte sur chaque page suite de la catégorie
     
  19. neektoo
    neektoo Nouveau WRInaute
    Inscrit:
    24 Mars 2014
    Messages:
    29
    J'aime reçus:
    0
    @indigene

    Tu es un exemple pour moi, je ne sais pas comment tu arrives à faire preuve d'autant de tolérance envers les propos peu acceptables de patrick_lejeune envers toi, et marie aude qui te dit que ta solution c'est comme écraser une mouche avec une enclume et qui ne comprend pas la finalité du problème ; Qu'au final la solution c'est un simple module à rajouter, et que désindexer les paramètres p est nocif dans la globalité et desindexera aussi les commentaires utilisateur qui utilisent, selon la version, ce même paramètre.

    Tu es un exemple de tolérance, et merci de leur part pour ta pédagogie.

    J'ai posté un sujet "google traduire cette page", si tu as une idée n'hésite pas à me la partager.
     
  20. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    ... Bah Google dit le contraire
    https://developers.google.com/webmasters/control-crawl-index/docs/faq#h01
    Pour info, j'ai des sites sans robots.txt et je n'ai aucune 404 pour ça dans la console GoogleSearch

    ça ce n'est pas nocif "en soi", c'est nocif "en cas de mauvaise utilisation". Faire une connerie avec un outil est toujours nocif, même si l'outil est bon.

    1- tu peux décider de bloquer des urls à cause de leur contenu, et pas à cause de la sécurité
    2- en particulier, si ce sont des urls en front-end... je ne vois pas trop le problème grave de sécurité d'indiquer à un hacker que je ne veux pas indexer les pages 2 qui ne sont pas plus ou moins hackables que les pages 1
    3- c'est un argument souvent avancé pour tout ce qui est répertoire d'admin et de script, et ce n'est pas totalement faux, mais uniquement pour les sites faits maisons. Pour les sites avec CMS, quels qu'ils soient, les listes de répertoires sont connues, comme les moyens d'y accéder et de les hacker. Pour info, aujourd'hui, les hackers testent des urls, robots.txt ou pas, de façon automatisée...

    Je l'ai déjà fait, relis mon post...

    Bah non, ça c'est de la théorie.
    En pratique... le champ sémantique, il se gère dans la description du produit, dans la page de catégorie et éventuellement dans les articles de blog.

    Par ailleurs, à moins de mettre en place quelque chose qui est beaucoup plus une usine à gaz que la non indexation des pages suivantes, celles ci sont généralement du duplicate content, très rares sont les sites où les descriptions courtes / titres des produits sont différentes selon la page d'archive (par tag, par catégories, etc).
     
  21. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    1. il n'y a pas que google dans la vie
    2. Ce n'est pas google qui gère ton serveur
    3. Ce n'est pas dans la console googleSearch qu'on détecte les 404 mais sur son serveur. J'ai par exemple l'habitude de me faire envoyer un mail chaque fois qu'une page d'erreur 404 est appelée. Ca me permet de réagir aussitot en cas de lien brisé, sans attendre que google me l'indique dans GWT. Et je peux t'assurer que le fichier robots.txt est demandé plusieurs fois par jour, tout comme le favicon. Donc mettre un fichier .txt vide ça évite ces 404 inutiles qui appellent la page d'erreur 404 personnalisée et font mouliner le serveur et consomment de la bande passante pour rien.
     
  22. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    Ce genre de duplicate content n'a pas réellement d'incidence. Au pire, c'est google qui décide de ne pas indexer telle ou telle page et c'est bien mieux ainsi que de vouloir le forcer à en indexer une alors qu'il trouve qu'elle n'est pas assez pertinente tandis qu'une autre qu'on met en noindex il la trouverait peut-être bien plus pertinente.

    Si on a trois articles A B et C, la page qui présente A et B, celle qui présente B et C et celle qui présente A et C sont trois pages différentes avec un contenu original composé de duplicate content. Pourquoi vouloir mettre une description courte différente à chaque fois pour les produits ?
    Tu as mal lu mon intervention. Je parlais de mettre une description de catégorie différente pour chaque page suite de la catégorie :

    Page 1 : description de la catégorie et présentation des 10 premiers articles avec description courte des articles
    Page 2 : autre description de la catégorie et présentation des 10 articles suivants avec description courte des articles
    Page 3 : troisième description de la catégorie et présentation des 10 articles suivants avec description courte des articles.

    Mais sans doute qu'avec un wordpress c'est impossible à faire sans mettre les mains dans le cambouis.
    Mon CMS perso 100 fois plus simple que WP fait ça nativement
     
  23. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    Pour info, ici on est dans le forum "débuter en référencement", pas dans le forum "gestion d'un site web". Donc même si le moteur de recherche qui génère, en Europe, plus de 90% des visiteurs n'est pas le seul, ça reste le sujet de base ici.

    Donc tu transformes quelque chose qui a une bonne raison dans TON cas et TA gestion de serveur (et de serveur dédié) en une obligation pour tous, y compris ceux qui sont sur un mutu et qui n'ont pas ce paramétrage.

    Euh.... c'est toi, là, qui ne comprend pas bien.

    Si je me casse le cul à faire des tags, par exemple, c'est bien que j'ai envie d'être référencée (et donc indexée^^) sur ces tags. Si, à cause du DC, Google décide de ne pas indexer / positionner un tag ou un autre (et je te parle de la page d'accueil de la catégorie, pas des suivantes), j'ai un problème.
    De plus, tu n'as pas pensé que cette méthode permet de développer des archives de taxonomies qui sont beaucoup plus pertinentes d'un point de vue sémantique...

    Bref, mis en place sur trois sites, à chaque fois en me repaluchant tous les extraits... et à chaque fois, entre +30% et +80% de trafic. C'est pas un test statistique probant, mais quand même :)

    Oh le bel oxymore....
    Parce qu'un assemblage "original" de contenu dupliqué, c'est du contenu dupliqué.


    Et tu fais ça comment ? Tu stockes un nombre de descriptions à l'avance, histoire de... ou bien il faut penser à faire ça à chaque fois qu'on créée un produit qui change le nombre de pages de catégories ? ^^

    ça faisait longtemps que tu n'avais pas gagné un point Wordpress :)

    1- parce que ton CMS perso c'est "mettre les mains dans le cambouis" aussi (et pour le client final pas plus pas moins que d'utiliser un plugin)
    2- parce qu'il y a plusieurs plugins qui le permettent :)
    2- parce qu'on parle de Prestashop, et que tu es le premier à mentionner WordPress sur ce fil

    J'ajouterais simplement que je suis allée voir une boutique faite avec ton CMS perso. Sans s'attacher à l'esthétique, je ne suis pas sûre que
    "Boutique de xxxxx xxxxxxx - Index 1", puis ""Boutique de xxxxx xxxxxxx - Index 2" soient des titles qui incitent au clic et suffisamment différenciés.
    Les balises metas des pages 1 et 2 diffèrent simplement par l'ajout de " Index des articles page 2" C'est super incitatif au clic!
    Le résultat ? Sur le mot clé "Boutique de xxxxx xxxxxxx" le site du client apparait en bas de la troisième page de Google, mais pour sa page d'accueil, dont la description n'est pas pertinente pour la requête, puisqu'on n'y parle que de "conseils" et pas de boutique ou de vente.

    Et quand on fait apparaitre la page, avec la commande "Boutique de xxxxx xxxxxxx site:example.com" on s'aperçoit que Google n'aime vraiment pas tes balises titles, puisqu'il y rajoute "example.com".
     
  24. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 101
    J'aime reçus:
    176
    Je ne suis pas certains que les débutants arrivent bien à suivre ton raisonnement

    Quand on débute on commence par trois choses :
    - créer une page index.html
    - ajouter un fichier robots.txt (vide pour l'instant)
    - ajouter un favicon
     
  25. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    Plus maintenant ...

    on commence par :
    - installer un module chez son hébergeur
    - aller acheter un theme de daube sur envato (ils en vendent pour plein de cms)
    - créer des des catégories, des familles produits, etc...
    - avoir un super beau site inréférençable avec des images de plus de 2 mega
    - venir sur wri

    :lol: :lol: :lol:
     
  26. Furtif
    Furtif WRInaute accro
    Inscrit:
    9 Août 2005
    Messages:
    2 999
    J'aime reçus:
    358
    Pour faire
    [​IMG]
    Pour avoir fait :
     
  27. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 857
    J'aime reçus:
    5
    Pour en revenir au sujet, et penser "out of the box": quand on a de la pagination à outrance, ça peut signifier qu'il est possible de segmenter le contenu un niveau supplémentaire, et de générer des pages dont la thématique est encore plus précise.

    Quant aux canoniques, aux noindex et aux nofollow... ce n'est pas de la stratégie de contenu: c'est de l'emplâtre :)
     
  28. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 203
    J'aime reçus:
    365
Chargement...
Similar Threads - Duplicate meta content Forum Date
Duplicate content sur la meta description Débuter en référencement 14 Novembre 2021
Duplicate content sur les méta, à éviter ou pas? Débuter en référencement 18 Juillet 2013
Risque de Duplicate Content WWW/sans et Meta description Débuter en référencement 13 Juillet 2011
Meta dupliquées = duplicate content ? Référencement Google 27 Août 2008
Meta noindex, follow et duplicate content Problèmes de référencement spécifiques à vos sites 9 Mai 2008
Meta tag et duplicate content Référencement Google 29 Mai 2007
Problème Duplicate Content, meta description Débuter en référencement 6 Novembre 2006
<title>, meta description et duplicate content Débuter en référencement 1 Septembre 2006
Duplicate content et meta noindex Référencement Google 20 Mars 2006
Balise meta : NOINDEX / duplicate content Référencement Google 1 Août 2005
Meta Description et duplicate Débuter en référencement 17 Mai 2018
Duplicate meta sur la meme page URL Rewriting et .htaccess 18 Février 2014
Problème Duplicate meta descriptions Crawl et indexation Google, sitemaps 10 Mai 2011
WordPress Duplicate content et AMP Débuter en référencement 10 Novembre 2022
Duplicate content "?p=..." et robots.txt Crawl et indexation Google, sitemaps 7 Septembre 2022
Plugin de flux Facebook : duplicate content ? Débuter en référencement 18 Août 2022
images ; balises ALT et duplicate content Débuter en référencement 9 Juillet 2022
Quelles sont les caractéristiques de deux pages duplicate ? Problèmes de référencement spécifiques à vos sites 9 Mai 2022
mot-clé dans l'URL et le nom de domaine : duplicate content ? Référencement Google 1 Mars 2022
Duplicate content - Sous domaine - Landing Page Débuter en référencement 31 Janvier 2022