Search Console Site FR en attente de Multilangue + syntaxe Robot.txt

LmWarco · 5 Novembre 2019

Bonjour,

J'arrive pas a me mettre d'accord sur le sujet du Disallow sur le Robot.txt, j'ouvre donc la question dans le forum de spécialiste pour avoir vos retours.

Constat :
J'ai un site Prestashop dans lequel j'ai activé le Multilangue afin de prévoir l’éventualité d'ouvrir la version anglaise dans de bref délais sans pour autant retoucher toutes mes URL FR le Jour "J" et faire un plan de redirection (car Prestashop en Multilangue ajoute la syntaxe /en/ ou /en/ après le nom de domaine). Pour activer le multi-langue, Prestahop oblige à activer minimum deux langues donc 2 versions (ici /fr et /en ). Cela implique donc que j'ai une URL "/en" active sur mon site...

Objectif : Ne pas autoriser le Crawl sur la version Anglaise de mon site.
Alors en plus de supprimer l'URL temporairement dans les options de Google Search (ça c'est fait) , je souhaite donc paramétrer mon robot.txt pour que Google comprenne que je n'utilise pas cette version.

Problématique :
Mais la Syntaxe utilisée me pose problème. En étudiant un peu le sujet dans les Forum, souvent il préconise "Disallow: /*en/" ...dans le Robot.txt . Pourtant comme le "Disallow: /en/", je remarque que Google autorise le crawl de ma page NomDeDomaine/en (du coup il l' a indexé le cochon !) .... De plus "*" (l'étoile) me permet d’exclure des caractères spécifiques en début ou fin de nom de dossiers dans tous les niveau de profondeurs mais pas forcement dans les noms de produits...enfin bref ça se complexifie. Je trouve donc "Disallow: /*en/" pas pertinent et risqué....

Solution :
Après test sur https://www.google.com/webmasters/tools/robots-testing-tool, j'aurais tendance à utiliser plutôt cette syntaxe "Disallow: /en" qui me parait la plus pertinente. Qu'en pensez-vous ? Certains ont vécus cette expérience ?

Merci !

KOogar · 7 Novembre 2019

Bonjour,

Mettez les 2
Disallow: /en
et dans le cas ou une page est dans l'index:
Noindex: /en

Vous pouvez aussi passer par le header.tpl
Vous assignez une variable et vous la tester avec l'URI, si oui imprime la balise
{assign var=uri value=$smarty.server.REQUEST_URI}
{if $uri|strstr:"/en/"} <meta name="robots" content="noindex" />
c'est imparable!

WebRankInfo · 7 Novembre 2019

Noindex n'existe plus dans le robots.txt

LmWarco · 13 Novembre 2019

Bonjour,

Globalement il me parait plus simple à mettre en place un mixte avec notamment le point 2 via le lien partagé de @WebRankInfo:

"Si une URL a déjà été indexée par Google, alors la bloquer dans le robots.txt ne changera rien : en tout cas l’URL restera indexée. En effet, Google n’ayant plus l’autorisation de crawler la page, celle-ci ne sera plus crawlée et restera dans l’index telle quelle. Pour désindexer une URL, il faut autoriser son crawl et utiliser une balise meta robots noindex ou un entête HTTP X-Robots-Tag (ou bien, exception, aller faire une demande de suppression d’URL dans Google Webmaster Tools)."

Vue que j'ai déjà désindexé la page via Google Webmaster , je vais laisser "Disallow: /en" et on ajoute "Noindex: /en" dans le fichier robot.txt ( même si le "NoIndex" depuis septembre 2019 c'est moins pris en compte ). En attendant, Je reste sur mes gardes

Merci à vous deux @KOogar et @WebRankInfo .