Balise Noindex ou Disallow dans robots.txt

daza · 15 Septembre 2015

Bonjour,

j'aimerais vos avis sur le récent commentaire de John Mueller, sur le fait qu'il fallait éviter d'utiliser la commande noindex dans le fichier robots.txt.

Sur un site il y avait plus de 2 millions de pages sans valeurs ajoutées car c'étaient des pages de recherche de produits avec URL dynamiques, qui étaient présentes dans l'index de Google. Pour moi la commande Noindex: /*xx a permis d'en faire désindexer un grand nombre en 5 mois. L'utilisation de cette balise m'a semblée la plus appropriée car pour moi la commande : Disallow: /*xx, permet d'interdire leur suivi, mais pas de les désindexer. J'attends que toutes ces pages soient désindexées pour remplacer le Noindex par le Disallow.

Pensez-vous que ma démarches à été bonne ?
Si oui, pourquoi John Mueller signale d'éviter cette balise ?

Merci.

HawkEye · 15 Septembre 2015

Je préfère balancer un <meta name="robots" value="noindex,follow" /> dans le <head> du template des pages de résultats, et un <a href="" rel="nofollow"></a> sur les liens vers ces recherches. C'est bien plus radical

WebRankInfo · 16 Septembre 2015

il reste ensuite à attendre que Google recrawle les pages, ça peut être long et j'ai déjà observé que le noindex dans le robots.txt était plus rapide

daza · 16 Septembre 2015

Merci pour vos réponses.

Je pense que Google souhaite éviter la désindexation accidentelle de pages importantes sur un site, avec une utilisation hasardeuse du noindex. Pour cela le Disallow est moins risqué, mais plus long à s'appliquer.

UsagiYojimbo · 16 Septembre 2015

Les 2 n'ont pas le même finalité. Si tu mets en place un disallow pour des pages déjà indexées, elles ne seront jamais désindexées, étant donné que tu empêche le robot d'y avoir accès : https://www.webrankinfo.com/dossiers/indexation/crawl-respect-robots-txt