Comment combattre du Duplicate Content par un Robot.txt ou Paramétrage URL GWT ?

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par ABCDEF, 7 Février 2015.

  1. ABCDEF
    ABCDEF Nouveau WRInaute
    Inscrit:
    7 Février 2015
    Messages:
    3
    J'aime reçus:
    0
    Bonjour à toutes et à tous,
    Sur un de mes sites e-commerce en MAGENTO, je rencontre du duplicate content généré automatiquement sur certaines de mes urls produits, à priori des urls de produit configurable ou de produit à options personnalisables. Dans les GWT amélioration HTML, mes urls à duplicate content sont identifiés comme ci-après:
    Produit en plastique à hélice à poser au sol | mon site
    /produit-en plastique-a-helice-a-poser-au-sol-4855.html
    /produit-en plastique-a-helice-a-poser-au-sol-4861.html
    /produit-en plastique-a-helice-a-poser-au-sol-4870.html
    /produit-en plastique-a-helice-a-poser-au-sol-4873.html
    /produit-en plastique-a-helice-a-poser-au-sol-5085.html
    /produit-en plastique-a-helice-a-poser-au-sol-5087.html
    /produit-en plastique-a-helice-a-poser-au-sol-5103.html
    /produit-en plastique-a-helice-a-poser-au-sol-5117.html
    /produit-en plastique-a-helice-a-poser-au-sol-5203.html
    /produit-en plastique-a-helice-a-poser-au-sol-5205.html

    Je m'en remets à la communauté du forum, car je peine depuis des semaines à trouver le moyen d'interdire l'indexation des urls à suffixe de type "produit-en plastique-a-helice-a-poser-au-sol-4chiffres.html", soit par le biais d'un robot.txt, soit par le paramétrage des urls Google Web Master Tools, ou toute autre solution que vous pensez viable...
    Votre concours à résoudre ce problème est dors et déjà vivement apprécié
    merci d'avance.
     
  2. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 928
    J'aime reçus:
    78
  3. ABCDEF
    ABCDEF Nouveau WRInaute
    Inscrit:
    7 Février 2015
    Messages:
    3
    J'aime reçus:
    0
    Merci de ce premier retour, que je viens de lire avec attention,
    mais il semble que je sois déjà en url canonical, ce phénomène n'affecte pourtant pas le reste des urls produits de mon catalogue.
    Seulement, les produits configurable ou bien les produits à option personnalisable....
    comment éradiquer ce suffixe à 4 chiffres par un robot.txt ? est ce possible ?
     
  4. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 928
    J'aime reçus:
    78
    Si la canonical est correctement paramétré, ça doit faire le nécessaire. Mais il nous faut une url pour t'aiguiller...
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 498
    J'aime reçus:
    624
    pour les fiches produits ayant des variantes, voici les différentes solutions, de la meilleure à la moins bonne :
    - permettre d'accéder aux variantes du produit sans générer des URL différentes (il faut donc un CMS qui utilise du JS ou AJAX)
    - faire des 301 vers l'URL à garder (mais dans ce cas c'est impossible, sinon l'internaute ne peut pas accéder aux variantes)
    - définir une URL canonique
    - utiliser le paramétrage des URL dans Google Webmaster Tools (mais d'une part c'est à refaire pour les autres moteurs, notamment Bing, mais d'autre part c'est mieux de régler le problème sur le site lui-même)
    - ajouter une balise meta noindex sur les pages des variantes
    - bloquer le crawl des pages des variantes (via robots.txt) même après l'indexation de celles-ci
     
  6. fabo-vin
    fabo-vin Nouveau WRInaute
    Inscrit:
    10 Mars 2013
    Messages:
    2
    J'aime reçus:
    0
    si les pages sont strictement identiques, le <link rel="canonical" href="http://xxx" > dans le head est fait pour ça !
    (avec xxx :l'url complète de la seule page que tu veux indexer)

    s'il les pages sont des "variante", que le contenu diffère, ca devrait fonctionner aussi, mais ça reste à vérifier.
    tu peux aussi essayer avec la balise meta original-source
    https://support.google.com/news/publisher/answer/191283?hl=fr
    jamais essayé en pratique, mais ça devrait au moins expliciter aux moteurs quelle URL est la principale, et lui donner plus de poids.

    La meta noindex est dommage à mon sens : tu perds le poids de ces pages, alors qu'avec les solutions précédentes, tu concentrais une partie du poids sur la page principale.


    Comme le propose UsagiYojimbo, indique nous l'url de ton site, qu'on puisse regarder précisément comment est implémenté ton site.
     
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 498
    J'aime reçus:
    624
    la balise meta original-source ne concerne que Google Actualités...
     
  8. Ouily
    Ouily Nouveau WRInaute
    Inscrit:
    10 Février 2015
    Messages:
    35
    J'aime reçus:
    0
    Je n'ai bossé qu'une seule fois avec Magento, et ce que j'en ai retenu c'est qu'il faut généraliser les meta canonical partout !

    Le CMS s'est peut-être corrigé depuis, mais les url étaient dupliquées constamment : un produit mis en avant sur la page d'accueil ? Duplication d'url
    Un produit mis en avant dans une rubrique promotions ? Duplication d'url
    etc...

    Bref, pour parer à ce genre de pbm Et à celui des variantes : meta canonical partout
     
  9. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 928
    J'aime reçus:
    78
    @Ouily : pour les cas que tu évoques, mettre les produits à la racine solutionne durablement le problème. Et ce ne sont pas les mêmes problèmes de DC que ceux évoqués par ABCDEF.
     
  10. Ouily
    Ouily Nouveau WRInaute
    Inscrit:
    10 Février 2015
    Messages:
    35
    J'aime reçus:
    0
    Ce sont effectivement des problèmes différents, mais qui ont pour solution commune les meta canonical : double raison pour les utiliser :)
     
  11. ABCDEF
    ABCDEF Nouveau WRInaute
    Inscrit:
    7 Février 2015
    Messages:
    3
    J'aime reçus:
    0
    De toutes ses pistes, celle qui me semble la plus viable pour traiter mon souci serait de définir la bonne syntaxe dans les GWT paramètres d'url, afin d'interdire l'indexation de toutes les urls qui se terminent par :
    url-4 chiffres.html.
    Si vous avez une idée de rédaction du paramétrage, je veux bien la tester sur mon site.
    Par avance merci.
     
Chargement...
Similar Threads - combattre Duplicate Content Forum Date
Prise en compte des attributs de déclinaisons, sans faire du duplicate content e-commerce 29 Septembre 2021
Publier dans SlideShare : risque de duplicate content ? Référencement Google 14 Juillet 2021
WordPress Duplicate ou pas widget droite du site Référencement Google 9 Juin 2021
Duplicate Content et réseaux sociaux ? Référencement Google 30 Mai 2021
Duplicate content - réseaux sociaux Autres réseaux sociaux 20 Avril 2021
Image et Duplicate content Rédaction web et référencement 4 Avril 2021
Duplicate balises H2 en page d'accueil Rédaction web et référencement 17 Mars 2021
Duplicate excessif Rédaction web et référencement 17 Mars 2021
URL canoniques : à partir de quel pourcentage de duplicate content ? Référencement Google 24 Février 2021
URL canonique pour un contenu traduit, risque de duplicate ? Crawl et indexation Google, sitemaps 29 Janvier 2021