Comment combattre du Duplicate Content par un Robot.txt ou Paramétrage URL GWT ?

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par ABCDEF, 7 Février 2015.

  1. ABCDEF

    ABCDEF Nouveau WRInaute

    Inscrit:
    7 Février 2015
    Messages:
    3
    J'aime reçus:
    0
    Bonjour à toutes et à tous,
    Sur un de mes sites e-commerce en MAGENTO, je rencontre du duplicate content généré automatiquement sur certaines de mes urls produits, à priori des urls de produit configurable ou de produit à options personnalisables. Dans les GWT amélioration HTML, mes urls à duplicate content sont identifiés comme ci-après:
    Produit en plastique à hélice à poser au sol | mon site
    /produit-en plastique-a-helice-a-poser-au-sol-4855.html
    /produit-en plastique-a-helice-a-poser-au-sol-4861.html
    /produit-en plastique-a-helice-a-poser-au-sol-4870.html
    /produit-en plastique-a-helice-a-poser-au-sol-4873.html
    /produit-en plastique-a-helice-a-poser-au-sol-5085.html
    /produit-en plastique-a-helice-a-poser-au-sol-5087.html
    /produit-en plastique-a-helice-a-poser-au-sol-5103.html
    /produit-en plastique-a-helice-a-poser-au-sol-5117.html
    /produit-en plastique-a-helice-a-poser-au-sol-5203.html
    /produit-en plastique-a-helice-a-poser-au-sol-5205.html

    Je m'en remets à la communauté du forum, car je peine depuis des semaines à trouver le moyen d'interdire l'indexation des urls à suffixe de type "produit-en plastique-a-helice-a-poser-au-sol-4chiffres.html", soit par le biais d'un robot.txt, soit par le paramétrage des urls Google Web Master Tools, ou toute autre solution que vous pensez viable...
    Votre concours à résoudre ce problème est dors et déjà vivement apprécié
    merci d'avance.
     
  2. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
  3. ABCDEF

    ABCDEF Nouveau WRInaute

    Inscrit:
    7 Février 2015
    Messages:
    3
    J'aime reçus:
    0
    Merci de ce premier retour, que je viens de lire avec attention,
    mais il semble que je sois déjà en url canonical, ce phénomène n'affecte pourtant pas le reste des urls produits de mon catalogue.
    Seulement, les produits configurable ou bien les produits à option personnalisable....
    comment éradiquer ce suffixe à 4 chiffres par un robot.txt ? est ce possible ?
     
  4. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    Si la canonical est correctement paramétré, ça doit faire le nécessaire. Mais il nous faut une url pour t'aiguiller...
     
  5. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    pour les fiches produits ayant des variantes, voici les différentes solutions, de la meilleure à la moins bonne :
    - permettre d'accéder aux variantes du produit sans générer des URL différentes (il faut donc un CMS qui utilise du JS ou AJAX)
    - faire des 301 vers l'URL à garder (mais dans ce cas c'est impossible, sinon l'internaute ne peut pas accéder aux variantes)
    - définir une URL canonique
    - utiliser le paramétrage des URL dans Google Webmaster Tools (mais d'une part c'est à refaire pour les autres moteurs, notamment Bing, mais d'autre part c'est mieux de régler le problème sur le site lui-même)
    - ajouter une balise meta noindex sur les pages des variantes
    - bloquer le crawl des pages des variantes (via robots.txt) même après l'indexation de celles-ci
     
  6. fabo-vin

    fabo-vin Nouveau WRInaute

    Inscrit:
    10 Mars 2013
    Messages:
    2
    J'aime reçus:
    0
    si les pages sont strictement identiques, le <link rel="canonical" href="http://xxx" > dans le head est fait pour ça !
    (avec xxx :l'url complète de la seule page que tu veux indexer)

    s'il les pages sont des "variante", que le contenu diffère, ca devrait fonctionner aussi, mais ça reste à vérifier.
    tu peux aussi essayer avec la balise meta original-source
    https://support.google.com/news/publisher/answer/191283?hl=fr
    jamais essayé en pratique, mais ça devrait au moins expliciter aux moteurs quelle URL est la principale, et lui donner plus de poids.

    La meta noindex est dommage à mon sens : tu perds le poids de ces pages, alors qu'avec les solutions précédentes, tu concentrais une partie du poids sur la page principale.


    Comme le propose UsagiYojimbo, indique nous l'url de ton site, qu'on puisse regarder précisément comment est implémenté ton site.
     
  7. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    la balise meta original-source ne concerne que Google Actualités...
     
  8. Ouily

    Ouily Nouveau WRInaute

    Inscrit:
    10 Février 2015
    Messages:
    41
    J'aime reçus:
    0
    Je n'ai bossé qu'une seule fois avec Magento, et ce que j'en ai retenu c'est qu'il faut généraliser les meta canonical partout !

    Le CMS s'est peut-être corrigé depuis, mais les url étaient dupliquées constamment : un produit mis en avant sur la page d'accueil ? Duplication d'url
    Un produit mis en avant dans une rubrique promotions ? Duplication d'url
    etc...

    Bref, pour parer à ce genre de pbm Et à celui des variantes : meta canonical partout
     
  9. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    @Ouily : pour les cas que tu évoques, mettre les produits à la racine solutionne durablement le problème. Et ce ne sont pas les mêmes problèmes de DC que ceux évoqués par ABCDEF.
     
  10. Ouily

    Ouily Nouveau WRInaute

    Inscrit:
    10 Février 2015
    Messages:
    41
    J'aime reçus:
    0
    Ce sont effectivement des problèmes différents, mais qui ont pour solution commune les meta canonical : double raison pour les utiliser :)
     
  11. ABCDEF

    ABCDEF Nouveau WRInaute

    Inscrit:
    7 Février 2015
    Messages:
    3
    J'aime reçus:
    0
    De toutes ses pistes, celle qui me semble la plus viable pour traiter mon souci serait de définir la bonne syntaxe dans les GWT paramètres d'url, afin d'interdire l'indexation de toutes les urls qui se terminent par :
    url-4 chiffres.html.
    Si vous avez une idée de rédaction du paramétrage, je veux bien la tester sur mon site.
    Par avance merci.