Annonces Google

Vous êtes ici : Dossiers référencement > Indexation Google

SEO : 20 conseils sur le fichier robots.txt à ne pas rater

Par , le 03 juin 2016

Le fichier robots.txt, qui permet de bloquer le crawl des moteurs de recherche pour certaines URL ou parties d'un site, a plus de 20 ans : il fut créé le 30 juin 1994 par Martijn Koster. Voici plein de conseils que vous ne connaissiez peut-être pas...

Article mis à jour le 03/06/2016, publié initialement le 01/07/2014

Le fichier robots.txt

Conseils sur le fichier robots.txt pour le référencement naturel

A quoi sert le fichier robots.txt ?

Le Standard for Robot Exclusion fut créé pour éviter que des crawlers consomment trop de ressources du serveur et fassent "tomber" un site web. Il faut dire qu'en 1994, la bande passante était vraiment limitée.

Le site searchengineland.com a trouvé cet article de Brian Ussery qui liste des informations et conseils ainsi que les erreurs les plus courantes :

  1. Google télécharge le fichier robots.txt en moyenne une fois par 24h depuis l'an 2000 (avant c'était plutôt une fois par semaine). Parfois, cette fréquence est modifiée (voir les détails ici). Cela signifie que si vous souhaitez bloquer une URL, il est plus prudent de l'ajouter aux blocages dans le fichier robots.txt au moins 24h avant de mettre l'URL en ligne
  2. Si une URL a déjà été indexée par Google, alors la bloquer dans le robots.txt ne changera rien : en tout cas l'URL restera indexée. En effet, Google n'ayant plus l'autorisation de crawler la page, celle-ci ne sera plus crawlée et restera dans l'index telle quelle. Pour désindexer une URL, il faut autoriser son crawl et utiliser une balise meta robots noindex ou un entête HTTP X-Robots-Tag (ou bien, exception, aller faire une demande de suppression d'URL dans Google Webmaster Tools).
  3. En 2008, Google a indiqué que son robot Googlebot tient compte de directives supplémentaires, non définies dans le standard. Il s'agit des caractères joker $ et *, de la commande Allow et de la déclaration de fichiers sitemaps (lisez mon tuto sitemaps pour les détails).
  4. Ne bloquez pas le crawl des URL qui se font rediriger, sinon les moteurs ne pourront pas se rendre compte de cette redirection
  5. Les commentaires sont autorisés (la ligne doit commencer par #) mais ils sont totalement ignorés
  6. Le fichier robots.txt ne sert pas à protéger l'accès à une URL ou une rubrique (il faut plutôt exiger un login) : n'indiquez donc pas des URL "sensibles"...
  7. La taille maximale d'un fichier robots.txt est de 500Ko (attention, ce qui dépasse sera ignoré par Google)
  8. Dans certains cas, Google indique dans Google Search Console qu'il rencontre des problèmes d'exploration du fichier robots.txt. Google doit obtenir soit un code 200 (le fichier existe bien et lui est accessible) ou un code 403 ou 404 (le fichier n'est pas accessible mais le code HTTP renvoyé est cohérent).
  9. le fichier robots.txt peut se retrouver lui-même indexé dans Google. Pour le désindexer, vous devez soit utiliser X-Robots-Tag soit interdire le crawl du fichier puis le faire supprimer de l'index dans Google Search Console.
  10. La directive Crawl-delay est gérée par Bing mais ignorée par Google (pour ce dernier, il faut configurer ce paramétrage dans GSC).
Pour d'autres infos sur le robots.txt voyez le replay de mon webinar

Conseils SEO pour le fichier robots.txt

Quelques autres conseils sur le robots.txt :

  1. si en préprod vous avez bloqué le crawl de tout le site (Disallow: /), pensez à retirer cette directive avant de mettre le site en prod...
  2. l'URI doit toujours commencer par un slash
  3. faites bien attention à l'ordre des directives Allow: et Disallow: (attention, Allow n'est pas standard, mais Google la gère)
  4. le nom du fichier doit obligatoirement s'appeler robots.txt, avec un S à robots, en minuscules exclusivement
  5. il doit y avoir un fichier robots.txt pour chaque sous-domaine
  6. il doit y avoir un fichier robots.txt pour chaque protocole (HTTP et HTTPS)
  7. contrairement aux autres, Google accepte le fichier robots.txt sur le protocole FTP
  8. ce fichier texte doit préférablement être encodé en UTF-8. Si vous incluez un BOM au début, il sera ignoré.
  9. Les espaces sont optionnels (mais recommandés pour améliorer la lisibilité du fichier)
  10. Seules 4 directives sont prises en compte par Google (la casse est ignorée pour ces directives) : user-agent, disallow, allow, sitemap
Je vous propose une astuce sur le robots.txt regardez-la en vidéo !

FAQ et outils pour le fichier robots.txt

Si vous avez des questions sur ce fichier, consultez ma FAQ du fichier robots.txt ou bien posez vos autres questions ici en commentaires.

Des outils qui peuvent vous servir :

Ranking MetricsA ne pas manquer : Utilisez également mon outil My Ranking Metrics pour analyser votre SEO sur le plan technique. Il respecte les directives de vos fichiers robots.txt comme le fait Google ; il vous aidera à découvrir tous les points techniques qui bloquent ou pénalisent votre référencement naturel. Cet outil payant dispose d'une version gratuite.

Cet article vous a-t-il plu ?
Note : 4.5 (2 votes)
Cliquez pour voter !

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC,...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le SEO (+300.000 membres, 1,5 million de posts). Il est aussi cofondateur de Ranking Metrics, leader des formations webmarketing en France (SEO, AdWords, Analytics, réseaux sociaux) et éditrice de la plateforme MyRankingMetrics (crawler et audit SEO en ligne).

Article (SEO : 20 conseils en or sur le fichier robots.txt !) publié par WebRankInfo dans la rubrique Indexation Google. Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

6 commentaires

  • jerome a dit le

    Merci beaucoup pour cette synthèse.

  • Kalagan a dit le

    J'ai enfin l'information que je cherchais : le fichier robots.txt ne permet pas de désindexer certaines pages. Très bon à savoir. Merci.

  • Vincent Duplessy a dit le

    Bonjour,

    J'ai une petite question concernant ce robots.txt : si on a des règles de réécritures d'url qui redirigent /accueil.php?sportifid=123 vers /mon_sportif_123.html, est-ce que ça peut nuire si l'on bloque accueil.php ?

    Vincent

  • Olivier Duffez a dit le

    @Vincent : déjà, il faut savoir si tu parles de réécriture ou de redirection.
    si je comprends ta situation, tu as une réécriture d'URL qui fait que quand un internaute tape /mon_sportif_123.html, le serveur appelle en réalité /accueil.php?sportifid=123 (mais l'internaute n'est pas redirigé vers /accueil.php?sportifid=123)
    tu as peut-être également une redirection de /accueil.php?sportifid=123 vers /mon_sportif_123.html (ce qui serait normal si jamais un jour les URL comme /accueil.php?sportifid=123 ont été indexées)
    quoi qu'il en soit, il ne faut pas bloquer le crawl des URL du type /accueil.php?sportifid=123
    mais d'ailleurs, pourquoi vouloir les bloquer ?

  • NGB a dit le

    Bonjour,
    Je souhaite, via le robots.txt, bloquer le crawl d'un site à un certain robot en particulier, mais j'ignore le nom du bot.
    Il s'agit plus exactement d'un site (recette.land) qui prétend être un moteur de recherche de recettes et reprend les contenus (type "marque blanche") de nombreux blogs de cuisine.
    Avez-vous une idée ? Votre aide serait la bienvenue.
    Merci d'avance,
    NGB

  • Olivier Duffez a dit le

    @NGB : à moins d'identifier son IP (si elle est constante), ça risque d'être dur à faire s'il n'utilise pas un user-agent repérable... Au passage, l'IP du crawler n'est pas forcément celle du serveur qui héberge le site qui publie les contenus récupérés...

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.

Annonces Google


488 Partages