Disallow, noindex et nofollow
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Différences entre disallow, noindex et nofollow

Etes-vous un peu perdu entre toutes les directives pour les moteurs de recherche, comme allow/disallow, index/noindex, follow/nofollow ? Lisez cet article pour comprendre les différences et ne plus faire d'erreurs pour votre référencement !

Dossier mis à jour le 03/07/2019, publié initialement le 06/12/2016

Avant de commencer, au risque de vous alarmer, sachez que si vous n'utilisez pas ces instructions comme il le faut, vous pouvez pénaliser votre référencement...

Et comme je sais qu'il y a de quoi les confondre, je me dis qu'un dossier sur le sujet vous sera utile. Je vais vous montrer dans quels cas il faut utiliser chaque instruction (car elles sont utiles).

Petit bonus : il est possible de vérifier sur tout votre site (ou celui de votre client) s'il y a la moindre utilisation de ces directives néfaste pour votre référencement naturel. Il suffit en effet de lancer un audit RM Tech sur ma plateforme My Ranking Metrics : même la version gratuite vous indiquera si vous avez des erreurs. Pour savoir quelles pages corriger, vous devrez acheter des crédits pour lancer des audits complets.

Envie de tester si votre site a ces erreurs ? Découvrez RM Tech ici
Différences entre noindex, disallow et nofollow

Ne confondez pas crawl et indexation !

Pour bien comprendre les différences entre toutes ces directives, je dois d'abord vous expliquer/rappeler que globalement, les moteurs de recherche fonctionnent ainsi :

  1. le crawl : récupération des contenus
  2. l'indexation : analyse des contenus et ajout dans l'index
  3. le ranking : classement des pages pour les résultats

Il existe des directives liées spécialement au crawl, d'autres spécialement à l'indexation et enfin au ranking. C'est ce que je détaille dans ce dossier !

Voici donc les premières explications :

  • allow et disallow sont des directives à mettre dans le fichier robots.txt pour paramétrer le crawl et non pas l'indexation
  • index et noindex sont des directives à mettre dans la balise meta robots (ou via l'entête HTTP) pour paramétrer l'indexation et non pas le crawl
  • follow et nofollow sont les noms qu'on donne aux liens respectivement pris en compte et non pris en compte par les robots

Besoin d'en savoir plus ? J'ai des dossiers sur chaque notion :

Je vous propose même mieux : un webinar gratuit (replay) !

Pour tout comprendre du crawl et de l'indexation consultez ce tuto premium

Comment bien utiliser ces directives

Voilà des conseils qui devraient vous aider à savoir quelle directive utiliser selon chaque situation.

disallow dans le robots.txt

Utilisez disallow our interdire le crawl des pages qui n'ont aucun intérêt pour le SEO (et qui ne sont même pas censées recevoir des backlinks), ça pourra vous aider à faire crawler les autres pages plus efficacement (idée de budget de crawl) et vous évitera des ennuis.

Bloquez les URL concernées avant leur publication, sinon elles pourraient être indexées. Si elles sont indexées, il faut d'abord les désindexer puis les bloquer au crawl.

Ne bloquez pas les ressources (Javascript, CSS, images) nécessaires pour se figurer le rendu de vos pages (et leur compatibilité mobile).

N'indiquez pas en disallow des pages ou rubriques sensibles en termes de sécurité, utilisez une protection par login + mot de passe.

Attention, il faut un fichier robots.txt pour chaque sous-domaine, et HTTP/HTTPS sont traités séparément.

Voir aussi : le guide du fichier robots.txt

allow dans le fichier robots.txt

Sauf cas particuliers, vous ne devriez pas en avoir besoin, car par défaut tout est autorisé au crawl.

noindex dans le fichier robots.txt

Cette directive a fonctionné des années avec Google, même si ça n'a jamais été officiellement pris en compte. Mais c'est terminé : à partir du 1er septembre 2019, Google ne supporte plus le noindex dans le robots.txt.

noindex (meta robots ou X-Robots-Tag)

Utilisez-la sur des pages pour lesquelles vous ne souhaitez (surtout) pas qu'elles soient indexées, mais pour lesquelles vous estimez qu'il n'est pas inutile qu'elles soient éventuellement crawlées. Par exemple : des résultats de recherche interne (basés sur un champ ouvert comme des mots-clés).

Utilisez-la temporairement sur les pages de trop mauvaise qualité qui dégradent l'appréciation globale que Google peut se faire de votre site. Je dis temporairement car cela ne doit servir que quelques semaines, le temps que vous parveniez à améliorer la qualité de la page. Si cela dure des mois :

  • elle aura plus de mal à revenir bien positionnée une fois le noindex retiré
  • Google risque de réduire fortement le crawl sur cette URL, voire de ne plus revenir la crawler

Si vous mettez du noindex sur une page bloquée au crawl (par le fichier robots.txt), Google ne viendra pas la crawler, donc il ne verra pas le noindex, donc elle restera indexée...

Voir aussi : les valeurs de la meta robots, le tuto pour supprimer des pages de Google, l'entête X-Robots-Tag.

index (meta robots ou X-Robots-Tag)

Cela ne sert strictement à rien d'indiquer "index" dans la balise meta robots. Si votre CMS vous l'impose, ce n'est pas bien grave...

nofollow (et follow ou dofollow)

Attention, selon l'endroit où vous utilisez le nofollow, sa portée sera différente :

  • si vous le mettez sur un lien précis d'une page (un attribut de la balise <a href>), c'est seulement ce lien qui sera concerné
  • si vous mettez une balise meta robots nofollow (ou "none"), c'est l'ensemble des liens de la page qui seront concernés, qu'ils soient internes ou externes

Déjà, je ne vois pas de cas de figure où la meta robots nofollow présente un intérêt (si vous en trouvez, dites-le en commentaires, j'ai pu rater un cas particulier !).

Un lien en nofollow sera officiellement ignoré par Google, ce qui signifie que :

  • Google ne programmera pas à ses robots d'aller crawler l'URL de destination, contrairement à ce qu'il fait quand il rencontre un lien. Mais s'il trouve d'autres raisons d'aller crawler l'URL de destination, il le fera ! Par exemple car d'autres liens vers elles ne sont pas en nofollow, ou parce que l'URL de destination est dans un sitemap.
  • La page de destination ne tirera aucun des bénéfices habituels liés aux backlinks : pas d'amélioration de sa popularité et autres critères de confiance (PageRank, trust, etc.). Cela vaut aussi pour l'inverse : si le lien est jugé artificiel, étant donné qu'il est en nofollow, il ne dégradera pas le référencement de la page de destination (sauf cas extrêmes)

Entre vos différentes pages en internes, vous ne devriez pas mettre du nofollow (à part vers les pages bloquées au crawl). Mon outil RM Tech vous dresse la liste des cas rencontrés sur votre site.

Lien follow ou dofollow

Un lien follow ou dofollow, ça n'existe pas et pourtant vous en entendez parler... On utilise ces expressions pour signifier qu'il ne s'agit pas d'un nofollow, c'est tout.

Tout vérifier sur 100% des pages de votre site

Comme je vous l'ai indiqué au début de l'article, mon outil RM Tech permet de repérer un grand nombre de cas de figure liés à ces directives. Avec les annexes et les explications du rapport, vous pourrez tout corriger !

Voici les points repérés :

  • liste des URL bloquées au crawl (disallow dans robots.txt) et recevant pourtant des liens follow internes
  • liste des fichiers robots.txt absents ou inaccessibles (403, 404, 500...) en HTTP et HTTPS, pour tous vos sous-domaines
  • liste des URL bloquées à l'indexation (noindex)
  • liste des pages faisant au moins un lien interne nofollow
  • liste des URL trouvées dans les liens sortants externes follow
La version gratuite vous indique le nb d'erreurs : testez votre site !

Voici par exemple 2 captures d'écran de rapports d'audit RM Tech...

Fichiers robots.txt dans RM Tech
L'audit RM Tech liste les fichiers robots.txt, leur état et le nombre d'URL bloquées au crawl

Pages avec du noindex :

Audit RMTech : pages non indexables (détail)
Détail des pages non indexables : pour cause de robots noindex ou d'URL canoniques

Les annexes fournissent tous les détails...

Cet article vous a-t-il plu ?

Note : 4.9 (9 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

11 commentaires

Adri111

Mon site WP est actuellement en construction, donc je l'ai mis en no index.
Et je me suis aperçu que je n'ai plus plus ni de TF sur Madjestic et et pas de backlinks sur Ahref. Jusque là j'ai juste ?

Répondre
FEx

Bonjour,

Merci pour cet article de qualité qui permet d'éclairer un amateur "confirmé" comme moi. Je suis actuellement en train de m'interroger sur la façon de faire pour chacun des pages de mon site.

En lisant votre article, j'ai l'impression d'y voir deux infos contradictoires :

1) Si elles sont indexées, il faut d’abord les désindexer puis les bloquer au crawl.

Donc il est possible de de désindexer une page ET de l'ajouter ensuite en Disallow dans le robots.txt.

2) Si vous mettez du noindex sur une page bloquée au crawl (par le fichier robots.txt), Google ne viendra pas la crawler, donc il ne verra pas le noindex, donc elle restera indexée…

Donc il ne faut pas désindexer une page ET la mettre en Disallow (via le robots.txt).

Donc est-il suffisant de mettre une page en noindex ?
Est-il possible d'ajouter un Disallow sur cette page ?
Si oui, qu'est-ce que cela apporte concrètement ?

Enfin, que feriez-vous sur les pages Contact et Tarifs ?

Merci pour votre éclairé

Répondre
Olivier Duffez

le 2 explique le cheminement du 1
est-il suffisant de mettre une page en noindex ? oui si Google peut constater ce noindex (il ne doit donc pas être bloqué au crawl), non sinon.
est-il possible d'ajouter un disallow sur une page en noindex ? si elle n'est pas encore désindexée et que Google voit d'abord le disallow, il ne viendra plus la crawler et donc ne la désindexera pas

les pages contact et tarifs doivent rester indexables selon moi

Répondre
paulodef

Bonjour Olivier !

Notre site a une architecture en silos, avec un défaut : de nombreux liens inter-silos.
La conséquence est que Google ranke en priorité des pages isolées du site, qui sont en dehors de la structure pyramidal, plutôt que les têtes de silos. Pour faire simple : il y a trop de liens internes pour que les bots lisent correctement l'architecture logique.

Nous essayons de supprimer un maximum de liens entre home et pages filles, ou entre différents silos, mais ce n'est pas toujours possible.
Ma tentation est de mettre en nofollow les liens entre silos pour permettre aux bots de Google de mieux comprendre l'architecture.

J'ai vu qu'il y a un consensus énorme sur le sujet (articles sur Moz, Majestic, etc.) recommandant de ne pas utiliser le nofollow pour les liens internes, sans parler de la vidéo de Matt Cutts oú il le déconseille explicitement. En gros l’usage du nofollow pour guider le bot est l’héritage du Pagerank shaping (nostalgie  :wink:), que Google déteste.

Ma sensation est que c'est de toute façon trop risqué et que même si on ça ne déplaisait pas spécialement à Google, il y a un risque d’une mauvaise indexation si on place des nofollows vers des pages qui sont crawlées par d’autres chemins. Je pense que le problème serait le signal contradictoire donné au bot.

Je me souvenais que c’était une pratique utilisée et recommandée par l'agence seolius, et effectivement ils y en a un paquet sur leur site. Mais j’ai regardé le code de la home d’une douzaine des plus importantes agences SEO et AUCUNE n’en a.

En fait je n’ai trouvé que deux cas oú des seo y sont favorables : seolius et le dernier message de ce thread sur Moz https://moz.com/community/q/nofollow-on-internal-links#reply_318609. Bref pas suffisamment pour ne pas plutôt suivre le consensus.

Mais en fait je n’ai pas vu réellement de contenus en lignes oú quelqu’un décrivait un usage du nofollow explicitement pour mieux faire comprendre à Google l’architecture logique d'un site (pour que rankent les pages qui apportent davantage de valeur aux visiteurs). Confirmes-tu que c'est une erreur ?

Répondre
Olivier Duffez

Je fais également partie de ceux qui estiment qu'un lien interne nofollow est un non-sens (à part pour pointer vers des pages interdites au crawl).
Si tu penses qu'un lien est si hors-sujet que ça pour les internautes, alors tu le retires.
J'ai l'impression que certains sont tellement obsédés par "l'étanchéité des silos" qu'ils en viennent à prendre des décisions 100% SEO, oubliant les internautes.
Peux-tu donner des exemples de liens pour lesquels tu aimerais mettre du nofollow ? Je ne demande pas les URL mais des explications pour qu'on comprenne la problématique.

Répondre
SEbepe

"le crawl : récupération des contenus"
Non, pour être plus précis encore le crawl c'est le simple fait de passer sur votre site et le visiter. Ca n'implique pas la récupération de contenu dans une quelconque base de données !!!!

Répondre
Olivier Duffez

Oui c'est vrai ! mais tu penses vraiment que Google s'amuse à crawler sans rien en faire ? ou alors comment appeler la phase de récupération des données ?

Répondre
La Maison de Lilou

Pour le dofollow et follow, j'ai remarqué que pour le ref d'une page profonde il faut un juste equilibre de nombre entre les deux pour que la page sorte rapidement

Répondre
Olivier Duffez

@La Maison de Lilou 2 remarques qui n'engagent que moi :
- je suppose que vous parlez des backlinks externes ? ce qui n'est pas le cas de cet article
- je doute fortement que l'ajout de liens nofollow (pour atteindre un équilibre) ait un quelconque impact

Répondre
Alwosta

Merci pour les informations que vous donnez, mais concernant le "nofollow" je trouve le contraire: je teste des liens "nofollow" avec certaines pages de mon site web, j'attends des jours (généralement 4 à 7 jours) et je remarque que google indexe ces pages dans ça 1ere page.
Autre point: Je vois aussi que les lien en nofollow ont une importance dans les yeux de google car ils apparaissent parmi les backlinks que google détecte.

Répondre
Olivier Duffez

Une page qui ne reçoit que des liens nofollow et rien d'autre (pas de sitemap, rien) n'est ni crawlée ni indexée, d'après des tests que je refais régulièrement.
Les backlinks nofollow peuvent en effet être listés dans Search Console, tout comme ceux qui sont désavoués ! Cela ne signifie pas qu'ils sont pris en compte par Google...

Répondre