Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

SEO : 20 conseils sur le fichier robots.txt à ne pas rater

Le fichier robots.txt permet de bloquer le crawl des moteurs de recherche pour certaines URL ou parties d’un site. Ce dossier détaille tout, avec plein de conseils SEO que vous ne connaissiez peut-être pas…

Article mis à jour le 25/11/2017 (FAQ), publié initialement le 01/07/2014

Le fichier robots.txt

Conseils sur le fichier robots.txt pour le référencement naturel

Conseils SEO sur le fichier robots.txt

Le Standard for Robot Exclusion fut créé pour éviter que des crawlers consomment trop de ressources du serveur et fassent « tomber » un site web. Il faut dire qu’en 1994, la bande passante était vraiment limitée.

Le site searchengineland.com a trouvé cet article de Brian Ussery qui liste des informations et conseils ainsi que les erreurs les plus courantes :

  1. Google télécharge le fichier robots.txt en moyenne une fois par 24h depuis l’an 2000 (avant c’était plutôt une fois par semaine). Parfois, cette fréquence est modifiée (voir les détails ici). Cela signifie que si vous souhaitez bloquer une URL, il est plus prudent de l’ajouter aux blocages dans le fichier robots.txt au moins 24h avant de mettre l’URL en ligne
  2. Si une URL a déjà été indexée par Google, alors la bloquer dans le robots.txt ne changera rien : en tout cas l’URL restera indexée. En effet, Google n’ayant plus l’autorisation de crawler la page, celle-ci ne sera plus crawlée et restera dans l’index telle quelle. Pour désindexer une URL, il faut autoriser son crawl et utiliser une balise meta robots noindex ou un entête HTTP X-Robots-Tag (ou bien, exception, aller faire une demande de suppression d’URL dans Google Webmaster Tools).
  3. En 2008, Google a indiqué que son robot Googlebot tient compte de directives supplémentaires, non définies dans le standard. Il s’agit des caractères joker $ et *, de la commande Allow et de la déclaration de fichiers sitemaps (lisez mon tuto sitemaps pour les détails).
  4. Ne bloquez pas le crawl des URL qui se font rediriger, sinon les moteurs ne pourront pas se rendre compte de cette redirection
  5. Les commentaires sont autorisés (la ligne doit commencer par #) mais ils sont totalement ignorés
  6. Le fichier robots.txt ne sert pas à protéger l’accès à une URL ou une rubrique (il faut plutôt exiger un login) : n’indiquez donc pas des URL « sensibles »…
  7. La taille maximale d’un fichier robots.txt est de 500Ko (attention, ce qui dépasse sera ignoré par Google)
  8. Dans certains cas, Google indique dans Google Search Console qu’il rencontre des problèmes d’exploration du fichier robots.txt. Google doit obtenir soit un code 200 (le fichier existe bien et lui est accessible) ou un code 403 ou 404 (le fichier n’est pas accessible mais le code HTTP renvoyé est cohérent).
  9. le fichier robots.txt peut se retrouver lui-même indexé dans Google. Pour le désindexer, vous devez soit utiliser X-Robots-Tag soit interdire le crawl du fichier puis le faire supprimer de l’index dans Google Search Console.
  10. La directive Crawl-delay est gérée par Bing mais ignorée par Google (pour ce dernier, il faut configurer ce paramétrage dans GSC).
Pour d’autres infos sur le robots.txt voyez le replay de mon webinar

Je complète avec mes autres conseils sur le robots.txt :

  1. si en préprod vous avez bloqué le crawl de tout le site (Disallow: /), pensez à retirer cette directive avant de mettre le site en prod…
  2. l’URI doit toujours commencer par un slash
  3. faites bien attention à l’ordre des directives Allow: et Disallow: (attention, Allow n’est pas standard, mais Google la gère)
  4. le nom du fichier doit obligatoirement s’appeler robots.txt, avec un S à robots, en minuscules exclusivement
  5. il doit y avoir un fichier robots.txt pour chaque sous-domaine
  6. il doit y avoir un fichier robots.txt pour chaque protocole (HTTP et HTTPS)
  7. contrairement aux autres, Google accepte le fichier robots.txt sur le protocole FTP
  8. ce fichier texte doit préférablement être encodé en UTF-8. Si vous incluez un BOM au début, il sera ignoré.
  9. Les espaces sont optionnels (mais recommandés pour améliorer la lisibilité du fichier)
  10. Seules 4 directives sont prises en compte par Google (la casse est ignorée pour ces directives) : user-agent, disallow, allow, sitemap
Je vous propose une astuce sur le robots.txt regardez-la en vidéo !

FAQ fichier robots.txt

A quoi sert le fichier robots.txt ?

  • Par défaut, Google (et les autres robots) s’autorise à crawler toutes les URL de votre site
  • Sauf celles que vous avez explicitement interdites dans le fichier robots.txt
  • C’est utile pour économiser du « budget de crawl »
  • Si c’est bloqué dès leur mise en ligne, cela permet aussi d’éviter que des pages soient indexées

Que faut-il mettre dans son fichier robots.txt ?

Indiquez ce qui n’a pas besoin d’être crawlé (et donc indexé), par exemple :

  • des types d’URL qui n’ont aucun intérêt pour le référencement (tri, modes d’affichage, etc.)
  • des rubriques du site (répertoires) qui ne doivent jamais être indexées, si le cas se présente pour vous
  • des types de fichiers qui ne doivent pas être indexés (par exemple les PDF si c’est le cas pour vous)

Est-ce grave de ne pas avoir de fichier robots.txt ?

Non ! Sachez cependant que dans ce cas cela signifie que vous autorisez à tous les crawlers d’aller partout sur votre site.

Le petit inconvénient est qu’à chaque fois qu’un moteur de recherche tente d’accéder à votre fichier robots.txt (Google le fait plusieurs fois par semaine), cela génère une erreur 404.

Peut-on avoir un fichier robots.txt vide ?

Oui, cela ne pose aucun problème.

Comment configurer le crawl-delay dans le robots.txt pour Google ?

Ce n’est pas possible ! La directive crawl-delay n’est pas prise en compte par Google (par contre Bing en tient compte).

Si vous souhaitez ralentir Googlebot, faites la demande dans votre compte Search Console. Cela étant, cela ne devrait pas arriver souvent, ou alors vous avez besoin d’améliorer les performances de votre serveur.

Comment lire le fichier robots.txt ?

Ce fichier est public, n’importe qui peut le consulter. Il suffit de vous rendre à l’URL du fichier, qui est toujours la même : /robots.txt dans le sous-domaine qui vous intéresse.

Comment créer un fichier robots.txt ?

Prenez un éditeur de texte (le plus simple possible, pas Word) et saisissez le contenu souhaité. Si besoin, utilisez un générateur de fichier robots.txt (voir les outils ci-dessous).

Ensuite, uploadez-le par le système prévu sur votre site. Souvent il faut passer par le FTP.

Certains CMS proposent de créer ou modifier le fichier directement depuis votre back-office.

Comment modifier le fichier robots.txt ?

Récupérez la dernière version (a priori celle qui est en ligne sur votre site) et téléchargez le fichier. Il suffit d’aller à l’URL du fichier et de l’enregistrer (Fichier > Enregistrer sous…) au format texte.

Ensuite, libre à vous de le modifier puis de le transférer sur votre site (en général par FTP).

Certains CMS proposent d’éditer votre fichier directement depuis votre back-office.

Avec quel délai Google tient-il compte du fichier robots.txt ?

Une fois que vous l’avez modifié, il faut attendre que son robot le récupère, ce qui prend quelques heures ou quelques jours en général. Mais si vous êtes pressé, il suffit d’utiliser Search Console pour signaler à Google que votre fichier robots.txt a changé. Pour cela, consultez mon tuto en vidéo. En gros :

  1. Allez dans la rubrique Exploration
  2. Cliquez sur Outil de test du fichier robots.txt
  3. Cliquez sur « Envoyer »
  4. Dans le popup, repérez « Demander la mise à jour à Google » et cliquez sur « Envoyer »

Peut-on bloquer les CSS et JS dans le fichier robots.txt ?

En théorie oui, vous pouvez, mais c’est déconseillé. En effet, sauf cas particulier, ces fichiers peuvent être nécessaires au rendu des pages de votre site. Si vous interdisez les robots des moteurs de recherche à y accéder, ils ne pourront pas se rendre compte à quoi ressemblent vos pages. Dans certains cas, ils pourraient même ne pas accéder à tout votre contenu (s’il nécessite les codes Javascript que vous bloquez).

Donc en pratique, ne bloquez pas les fichiers CSS et Javascript dans le robots.txt. D’ailleurs, si vous le faites, il est probable que Google vous avertira que vous « bloquez des ressources« .

Si vous avez d’autres questions sur ce fichier, posez-les ici en commentaires.

Outils pour le fichier robots.txt

Des outils qui peuvent vous servir :

Ranking MetricsA ne pas manquer : Utilisez également mon outil My Ranking Metrics pour analyser votre SEO sur le plan technique. Il respecte les directives de vos fichiers robots.txt comme le fait Google ; il vous aidera à découvrir tous les points techniques qui bloquent ou pénalisent votre référencement naturel. Cet outil payant dispose d’une version gratuite.

Cet article vous a-t-il plu ?

Note : 4.2 (4 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

6 commentaires

jerome

Merci beaucoup pour cette synthèse.

Répondre
Kalagan

J’ai enfin l’information que je cherchais : le fichier robots.txt ne permet pas de désindexer certaines pages. Très bon à savoir. Merci.

Répondre
Vincent Duplessy

Bonjour,

J’ai une petite question concernant ce robots.txt : si on a des règles de réécritures d’url qui redirigent /accueil.php?sportifid=123 vers /mon_sportif_123.html, est-ce que ça peut nuire si l’on bloque accueil.php ?

Vincent

Répondre
Olivier Duffez

@Vincent : déjà, il faut savoir si tu parles de réécriture ou de redirection.
si je comprends ta situation, tu as une réécriture d’URL qui fait que quand un internaute tape /mon_sportif_123.html, le serveur appelle en réalité /accueil.php?sportifid=123 (mais l’internaute n’est pas redirigé vers /accueil.php?sportifid=123)
tu as peut-être également une redirection de /accueil.php?sportifid=123 vers /mon_sportif_123.html (ce qui serait normal si jamais un jour les URL comme /accueil.php?sportifid=123 ont été indexées)
quoi qu’il en soit, il ne faut pas bloquer le crawl des URL du type /accueil.php?sportifid=123
mais d’ailleurs, pourquoi vouloir les bloquer ?

Répondre
NGB

Bonjour,
Je souhaite, via le robots.txt, bloquer le crawl d’un site à un certain robot en particulier, mais j’ignore le nom du bot.
Il s’agit plus exactement d’un site (recette.land) qui prétend être un moteur de recherche de recettes et reprend les contenus (type « marque blanche ») de nombreux blogs de cuisine.
Avez-vous une idée ? Votre aide serait la bienvenue.
Merci d’avance,
NGB

Répondre
Olivier Duffez

@NGB : à moins d’identifier son IP (si elle est constante), ça risque d’être dur à faire s’il n’utilise pas un user-agent repérable… Au passage, l’IP du crawler n’est pas forcément celle du serveur qui héberge le site qui publie les contenus récupérés…

Répondre