?cmsPreview=1 robots.txt

Discussion dans 'Crawl et indexation Google, sitemaps' créé par s-o-m-e-y, 8 Mars 2014.

  1. s-o-m-e-y
    s-o-m-e-y WRInaute occasionnel
    Inscrit:
    26 Juin 2007
    Messages:
    433
    J'aime reçus:
    0
    Bonjour,

    dans mes outils Webmasters-Tools je constate du duplicate à "Améliorations HTML"

    - Balises META description en double
    - Balises title en double


    la cause :

    /Mon-titre.URL
    /Mon-titre-URL?cmsPreview=1


    je ne sais pas du tout par quoi est généré cette extension "?cmsPreview=1" en fin d'URL sachant que le contenu en question ne contient ni images, ni imagesbox ou plugin du genre zoom-images, preview ..etc

    j'essaye donc d'interdire le crawl et par la même l'indexation, j'ai appliqué la règle suivante

    pensez-vous que je soit bon pour le robot txt?
    et à titre informatif savez-vous d'ou proviennent ce types d'extension URL et par quoi sont telles générés??


    merci pour vos lumières.
     
  2. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Il me semble que Google le prend en charge (à vérifier). Il ne faut pas pour autant oublier les autres moteurs de recherche.
    Cependant, si ta solution peut fonctionner pour l'url, il n'en sera pas de même pour le titre ou les metas.

    Soit un bug de l'outil utilisé, soit une injection de code.
    Qu'utilise-tu comme application ou CMS ?
     
  3. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 887
    J'aime reçus:
    74
    Avec une url, on pourrait sans doute t'aiguiller plus en avant
     
  4. s-o-m-e-y
    s-o-m-e-y WRInaute occasionnel
    Inscrit:
    26 Juin 2007
    Messages:
    433
    J'aime reçus:
    0
    le cms utilisé est un dotclear... et je n'ai pas de plugin de galeries, ou d'images zoomée genre showbox et le contenu est un contenu uniquement de texte (ne contient pas d’images) etc...

    les balises titles et meta en double sont certaineemnt dues au fait que l'url est une fois "normale"
    - /Mon-URL
    et une fois due a cette extension (qui sort de je ne sais ou)
    - /Mon-URL?cmsPreview=1

    évidement c'est la même page avec la même description + titre donc j'essaye d'interdire cette indexation

    est-ce que ma regle est correcte?

    devrais-je faire ?

    ou encore tout simplement :
     
  5. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Le problème est bien là, comment ce bout d'url s'incruste-t-il à la fin du title et de la meta ?

    Ce n'est pas en interdisant à Google de suivre ces liens que tes problèmes avec la description et le title seront réglés.
     
  6. s-o-m-e-y
    s-o-m-e-y WRInaute occasionnel
    Inscrit:
    26 Juin 2007
    Messages:
    433
    J'aime reçus:
    0
    je pense que justement si j'interdit à GG d'indexer ces URL's elle ne feront plus de duplicate

    bien que tu est raison et que le probleme reste entier car je ne sais pas d’où elles viennent (surtout que rien n'a changé depuis des mois niveau config..) et surtout si par exemple
    est la bonne façon d'interdire leur indexation ?
     
  7. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Un gars avait le même problème que toi en 2012 (et vous êtes quelques-uns).

    Pour en avoir le cœur net, regarde tes logs et relève toutes les IPs et user agent où figurent ce bout d'url : ?cmsPreview=1
     
Chargement...
Similar Threads - cmsPreview=1 robots Forum Date
Google me dit que ma page est bien indexée mais bloquée par robots.txt Crawl et indexation Google, sitemaps Mercredi à 18:31
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 17 Octobre 2020
lien variable à bloquer sur robots Développement d'un site Web ou d'une appli mobile 3 Mai 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
Robots.txt du site Kayak Débuter en référencement 11 Mars 2020
Search Console Indexée malgré le blocage dans robots.txt Crawl et indexation Google, sitemaps 26 Février 2020
Search Console Prestashop | Robot.txt bloque des URL mais Outil de test du fichier robots.txt l'Authorise... Crawl et indexation Google, sitemaps 21 Novembre 2019
Search Console Images bloquées ... malgré absence de robots.txt Crawl et indexation Google, sitemaps 31 Octobre 2019
Aide sur le format de mon fichier robots.txt Crawl et indexation Google, sitemaps 25 Octobre 2019
Problèmes d'indexation et robots.txt Crawl et indexation Google, sitemaps 14 Octobre 2019