?cmsPreview=1 robots.txt

WRInaute occasionnel
Bonjour,

dans mes outils Webmasters-Tools je constate du duplicate à "Améliorations HTML"

- Balises META description en double
- Balises title en double


la cause :

/Mon-titre.URL
/Mon-titre-URL?cmsPreview=1


je ne sais pas du tout par quoi est généré cette extension "?cmsPreview=1" en fin d'URL sachant que le contenu en question ne contient ni images, ni imagesbox ou plugin du genre zoom-images, preview ..etc

j'essaye donc d'interdire le crawl et par la même l'indexation, j'ai appliqué la règle suivante

User-agent: *
User-agent: Googlebot
Disallow: /*?cmsPreview=1

pensez-vous que je soit bon pour le robot txt?
et à titre informatif savez-vous d'ou proviennent ce types d'extension URL et par quoi sont telles générés??


merci pour vos lumières.
 
WRInaute accro
s-o-m-e-y a dit:
User-agent: *
User-agent: Googlebot
Disallow: /*?cmsPreview=1
pensez-vous que je soit bon pour le robot txt?
Il me semble que Google le prend en charge (à vérifier). Il ne faut pas pour autant oublier les autres moteurs de recherche.
Cependant, si ta solution peut fonctionner pour l'url, il n'en sera pas de même pour le titre ou les metas.

s-o-m-e-y a dit:
à titre informatif savez-vous d'ou proviennent ce types d'extension URL et par quoi sont telles générés?
Soit un bug de l'outil utilisé, soit une injection de code.
Qu'utilise-tu comme application ou CMS ?
 
WRInaute occasionnel
le cms utilisé est un dotclear... et je n'ai pas de plugin de galeries, ou d'images zoomée genre showbox et le contenu est un contenu uniquement de texte (ne contient pas d’images) etc...

les balises titles et meta en double sont certaineemnt dues au fait que l'url est une fois "normale"
- /Mon-URL
et une fois due a cette extension (qui sort de je ne sais ou)
- /Mon-URL?cmsPreview=1

évidement c'est la même page avec la même description + titre donc j'essaye d'interdire cette indexation

est-ce que ma regle est correcte?

User-agent: *
User-agent: Googlebot
Disallow: /*?cmsPreview=1

devrais-je faire ?

User-agent: *
User-agent: Googlebot
Disallow: /*?cmsPreview=1
User-agent: Mediapartners-Google
Disallow: /*?cmsPreview=1
User-agent: Googlebot-Image
Disallow: /*?cmsPreview=1
User-agent: Googlebot-Mobile
Disallow: /*?cmsPreview=1
User-agent: Adsbot-Google
Disallow: /*?cmsPreview=1

ou encore tout simplement :
User-agent: *
Disallow: /*?cmsPreview=1
 
WRInaute accro
s-o-m-e-y a dit:
les balises titles et meta en double sont certaineemnt dues au fait que l'url est une fois "normale"
- /Mon-URL
et une fois due a cette extension (qui sort de je ne sais ou)
- /Mon-URL?cmsPreview=1
Le problème est bien là, comment ce bout d'url s'incruste-t-il à la fin du title et de la meta ?

Ce n'est pas en interdisant à Google de suivre ces liens que tes problèmes avec la description et le title seront réglés.
 
WRInaute occasionnel
je pense que justement si j'interdit à GG d'indexer ces URL's elle ne feront plus de duplicate

bien que tu est raison et que le probleme reste entier car je ne sais pas d’où elles viennent (surtout que rien n'a changé depuis des mois niveau config..) et surtout si par exemple
User-agent: *
Disallow: /*?cmsPreview=1
est la bonne façon d'interdire leur indexation ?
 
WRInaute accro
Un gars avait le même problème que toi en 2012 (et vous êtes quelques-uns).

Pour en avoir le cœur net, regarde tes logs et relève toutes les IPs et user agent où figurent ce bout d'url : ?cmsPreview=1
 
Discussions similaires
Haut