Annonces Google

Vous êtes ici : Dossiers référencement > Conseils en référencement naturel

Tout comprendre sur la balise meta robots et le référencement naturel

Par , le 08 janvier 2016

La balise meta robots permet d'indiquer si une page peut être indexée ou pas, ainsi que plusieurs autres cas de figure. Ce tutoriel explique tout ce que vous avez à savoir à ce sujet pour optimiser votre référencement naturel, notamment sur Google.

Balise meta robots et SEO

Ce dossier détaille toutes les possibilités de la balise meta robots (et googlebot) et son impact en référencement

Article mis à jour le 08/01/2016, publié initialement le 23/12/2014

Avant de poursuivre, sachez que je propose d'autres dossiers similaires :

Meta robots : définition et code HTML

Format de la balise meta robots

La meta meta robots est une balise HTML située dans l'entête HTML, c'est-à-dire entre les balises <head> et </head>. Facultative, elle permet de fournir quelques directives aux robots des moteurs de recherche, par exemple pour interdire l'indexation de la page (robots noindex).

La syntaxe est très simple, voyez cet exemple de meta robots (version XHTML ou HTML5) :

<meta name="robots" content="noindex" />

Parfois vous pouvez avoir besoin d'indiquer plusieurs valeurs (dans "content") : il faut les séparer par une virgule comme dans cet autre exemple :

<meta name="robots" content="noindex,notranslate" />

Quel rapport avec le fichier robots.txt ?

Avant de lister toutes les possibilités du meta tag robots, je vous rappelle que :

  • la balise meta robots sert à fournir des directives aux robots quand ils consultent une page spécifique
  • le fichier robots.txt sert à indiquer aux robots s'ils ont le droit d'accéder à une page ou un groupe de pages du site
Si ce n'est pas clair, je vous conseille de lire mes explications sur le fichier robots.txt

En résumé :

  • pour interdire en amont le crawl (et donc l'indexation) d'une page, bloquez-la dans le fichier robots.txt
  • pour interdire l'indexation d'une page (autorisée au crawl), mettez une balise meta robots noindex dedans
  • attention : si une page est déjà indexée et que vous souhaitez la supprimer de Google, ne la bloquez pas au crawl (dans le robots.txt), car même si vous mettez aussi une meta noindex, Google ne consultera pas la page (à cause du robots.txt) et ne la désindexera pas...

Si vous souhaitez désindexer des pages, j'ai un dossier complet sur le sujet...

Contradiction avec l'URL canonique ?

Si vous indiquez à la fois une URL canonique (différente de l'URL courante) ET une balise meta robots (noindex par exemple), il peut y avoir des contradictions. Sachez qu'il n'existe pas d'ordre de priorité de traitement des balises <meta> et <link> donc c'est la logique de l'ensemble qui compte.

Si besoin, relisez l'article sur la canonique !

Liste de toutes les valeurs possibles

Balise meta robots noindex

Format :

<meta name="robots" content="noindex" />

noindex indique au robot qu'il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt.

Ceci ne peut être pris en compte que si Google est autorisé à crawler la page. Une fois qu'il l'aura crawlée, la page sera rapidement désindexée (supprimée de l'index).

Evidemment, si vous mettez par erreur une balise meta robots noindex sur une page stratégique de votre site, la conséquence pour votre référencement sera dramatique. Mieux vaut le repérer très rapidement afin de corriger l'erreur (en retirant cette meta noindex).

Astuce : en faisant un audit technique gratuit RM Tech, vous pouvez savoir si votre site contient des pages non indexables. Le rapport d'audit vous indiquera plein d'autres conseils pour votre référencement.

Testez l'audit SEO en ligne sur votre site ! Ici sur My Ranking Metrics

Balise meta robots nofollow

Format :

<meta name="robots" content="nofollow" />

nofollow indique au robot qu'il ne faut pas suivre les liens dans la page. Cela signifie que Google n'ira pas crawler les pages liées par la page contenant cette balise meta robots. Même si Google ne le précise pas dans son article, les moteurs ne tiendront pas non plus compte des liens présents sur la page dans leur algorithme (par exemple celui du PageRank).

Remarque : il n'y a sans doute aucun cas réel pratique pour lequel il est intéressant d'ajouter cette balise, car elle interdit le suivi de tous les liens, qu'ils soient internes ou externes. Si vous souhaitez interdire la prise en compte d'un lien en particulier dans une page, ajoutez un attribut nofollow à ce lien.

Balise meta robots index

Format :

<meta name="robots" content="index" />

index indique au robot qu'il peut indexer la page. Cette valeur étant celle par défaut, il est totalement inutile de l'indiquer !

Balise meta robots follow

Format :

<meta name="robots" content="follow" />

follow indique au robot qu'il peut suivre les liens dans la page. Cette valeur étant celle par défaut, il est totalement inutile de l'indiquer !

Balise meta robots all

Format :

<meta name="robots" content="all" />

all : cette valeur est l'équivalent de index,follow. Cette valeur étant celle par défaut, il est totalement inutile de l'indiquer.

Balise meta robots none

Format :

<meta name="robots" content="none" />

none : cette valeur est l'équivalent de noindex,nofollow.

Balise meta robots nosnippet

Format :

<meta name="robots" content="nosnippet" />

nosnippet indique au robot qu'il ne faut pas afficher de descriptif (snippet) dans la page de résultats. J'ai du mal à voir l'intérêt pour un webmaster d'utiliser cette possibilité puisque ce descriptif permet d'inciter l'internaute à cliquer sur le résultat (peut-être qu'il existe des cas où le descriptif créé par le moteur n'est pas assez pertinent aux yeux du webmaster, mais c'est encore pire de ne pas en faire apparaître).

Au sujet du snippet, pour vous donner des chances d'avoir un bon descriptif, pensez à rédiger une bonne meta description.

Balise meta robots noarchive

Format :

<meta name="robots" content="noarchive" />

noarchive indique au robot qu'il ne faut pas laisser l'accès à la version en cache. Le lien "En cache" dans la page de résultats ne sera donc pas affiché. Ceci peut servir à ceux qui passent leurs contenu d'une version publique accessible à une version archivée payante (sites de journaux par exemple). L'inconvénient est que le webmaster ne peut plus savoir à quelle date (et heure) Google a indexé la page la dernière fois (il peut toujours voir la date de dernier crawl dans ses fichiers logs).

Balise meta robots nocache

Format :

<meta name="robots" content="nocache" />

nocache : identique à noarchive, ceci est pris en compte par Bing mais pas par Google

Balise meta robots notranslate

Format :

<meta name="robots" content="notranslate" />

notranslate indique à Google que l'on ne souhaite pas qu'un lien Traduire soit affiché à côté du résultat de recherche. Google affiche parfois ce lien donnant accès à une traduction automatique de la page.

Balise meta robots noimageindex

Format :

<meta name="robots" content="noimageindex" />

noimageindex indique à Google qu'aucune image située sur cette page ne doit être indexée dans Google Images.

Balise meta robots noodp

Format :

<meta name="robots" content="noodp" />

noodp indique au robot qu'il ne faut pas utiliser les données associées au site par les éditeurs de l'annuaire DMOZ (Open Directory Project, ODP). Ceci est utile si la description ou le titre du site dans DMOZ ne correspondent pas assez bien à la réalité. Etant donné que DMOZ ne référence en général que les pages d'accueil, cette balise ne doit être mise que sur cette page (ce n'est donc pas la peine d'ajouter la balise méta robots noodp sur tout le site, mais ça n'a pas d'impact négatif de le faire).

Pour en savoir plus, lisez l'article sur la balise meta noodp.

Balise meta robots unavailable_after

Format (exemple avec la date du 25/08/2007 à 15h EST) :

<meta name="robots" content="unavailable_after:25-Aug-2007 15:00:00 EST" />

unavailable_after:[date] indique au robot que la page ne doit pas ressortir dans les résultats après la date indiquée (au format RFC 850). Pour en savoir plus, apprenez en quoi cela diffère de l'entête HTTP Expires et lisez la discussion sur la balise meta unavailable_after

Balise meta robots noydir

Format :

<meta name="robots" content="noydir" />

Seul Yahoo gère cette valeur noydir qui permet comme noodp d'indiquer au moteur qu'on ne souhaite pas que les données de l'annuaire Yahoo (Yahoo Directory) soient utilisées. Etant donné que cet annuaire a disparu, cette balise n'a plus aucune raison d'exister dans vos pages.

Pour en savoir plus, lisez l'article sur la balise meta noydir.

La directive X-Robots-Tag dans l'entête HTTP

Si vous n'avez pas la possibilité d'ajouter une balise meta dans votre page HTML, sachez que vous pouvez malgré tout fournir des indications aux robots via l'entête HTTP. Il suffit d'ajouter des lignes dans l'entête, d'une façon similaire à cette balise meta robots.

Le X-Robots-Tag peut servir quand votre CMS ne vous laisse pas ajouter une balise meta, ou bien également quand cela concerne des documents autres que HTML (par exemple des PDF ou des images).

Pour en savoir plus, lisez mon article qui explique comment utiliser X-Robots-Tag dans l'entête HTTP.

La balise meta googlebot

Habituellement, on utilise la balise meta robots car les directives d'adressent à tous les robots. Mais saviez-vous que vous pouvez spécifier des directives différentes selon les robots ? Il faut pour cela remplacer name="robots" par name="googlebot" ou tout autre nom de robot.

Par exemple, la ligne ci-dessous demande uniquement au robot standard de Google de ne pas indexer la page :

<meta name="googlebot" content="noindex" />

On peut même imaginer un cas où dans la même page figurent deux instructions différentes. Par exemple, pour autoriser à tous les robots sauf Google de suivre les liens, tout en demandant à tous les moteurs de ne pas indexer la page :

<meta name="robots" content="noindex" />
<meta name="googlebot" content="nofollow" />

Dans le cas de Google, voici les noms d'agents (user agent) que vous pouvez utiliser dans cette balise meta (tout comme dans le fichier robots.txt) :

Crawler User-agent (robots.txt, balise meta ou X-Robots-Tag)
Googlebot (web) Googlebot
Googlebot Actualités Googlebot-News(Googlebot)
Googlebot Images Googlebot-Image(Googlebot)
Googlebot Vidéo Googlebot-Video(Googlebot)
Googlebot Mobile Googlebot-Mobile(Googlebot)
Google Mobile AdSense Mediapartners-GoogleMediapartners(Googlebot)
Google AdSense Mediapartners-GoogleMediapartners(Googlebot)
Google AdsBot AdsBot-Google

Pour aller plus loin : audit de votre site

Si vous souhaitez optimiser le référencement naturel de votre site, il est indispensable de vérifier que les bases sont correctement faites, à savoir tout le socle technique du SEO.  Vous devez vérifier qu'aucune page importante n'est bloquée à l'indexation (par cette fameuse balise meta robots) : pour ça, il vaut mieux un outil ! Pour comprendre comment mon outil SEO "RM Tech" peut vous aider, consultez cette vidéo d'un site pénalisé par Panda :

Questions ?

Si vous avez des questions ou des remarques, n'hésitez pas à utiliser les commentaires !

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC,...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le SEO (+300.000 membres, 1,5 million de posts). Il est aussi cofondateur de Ranking Metrics, leader des formations webmarketing en France (SEO, AdWords, Analytics, réseaux sociaux) et éditrice de la plateforme MyRankingMetrics (crawler et audit SEO en ligne).

Article (Balise meta robots et référencement : tuto complet !) publié par WebRankInfo dans la rubrique Conseils en référencement naturel. Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

8 commentaires

  • Nost a dit le

    Un article bien tourné pour rassembler les infos sur les robots, merci Olivier!

    Par contre, petite coquille vu par un malheureux qui bosse ce 26 décembre :

    Par exemple, pour autoriser à tous les robots sauf Google de suivre les liens, tout en demandant à tous les moteurs de ne pas donner l'accès à la version en cache :

    Ne serait-ce pas content="nocache" au lieu de "nosnippet" ?

  • Olivier Duffez a dit le

    Merci Nost, j'avais modifié mon exemple mais pas les explications. J'ai toutefois changé d'exemple pour que ce soit plus simple.

  • aikido colmar a dit le

    Bonsoir

    j'ai un soucis, j'ai du mal à référencr le blog construit sur wordpress.com http//aikido.colmar.net, visiblement je n'ai pas accès à balise (vu mon niveau en info) y a t'il une astuces quelconque

    Merci d'avance pour la réponse

  • Olivier Duffez a dit le

    @aikido : Merci de poster dans le forum, ce sera bien plus pratique pour obtenir de l'aide

  • lagzor a dit le

    Bonjour,

    Je ne suis pas tout à fait d'accord avec cette partie la de votre article:
    "

    noindex indique au robot qu'il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt."

    Pourquoi doit-on utiliser le fichier robots.txt alors que l'on peut effectuer ceci en utilisant simplement la balise META?
    Est-ce que c'est plus effectif en passant par le TXT ?

    Merci

  • Olivier Duffez a dit le

    @lagzor : le fichier robots.txt ne sert pas à dire si on autorise ou bloque l'indexation, il est prévu pour gérer uniquement le crawl.
    La balise meta robots ne le permet pas de bloquer le crawl : logique, vu que Googlebot (ou les autres) doit d'abord télécharger la page pour découvrir cette balise.
    Je ne suis pas certain d'avoir compris votre question en fait ;-)

  • lagzor a dit le

    Merci Olivier pour votre réponse !
    Il est vrai que ma question n'est pas posée correctement ^^
    En lisant l'article j'avais comme l'impression qu'il était dit que Google va prendre en compte le contenu de la page (contenant la META) mais sans l'indexer.
    En résumé, si nous avons deux pages A et B avec le même contenu mais que la page B a un "noindex", cela ne posera pas de problème de duplicate content même si la page est crawlée !

  • Olivier Duffez a dit le

    si Google crawle une page et voit qu'elle contient une meta noindex, elle ne sera pas indexée (ou sera désindexée si elle l'était au préalable). Elle ne pourra donc pas générer de pb de duplicate content.
    cela dit, si les pages A et B ont le même contenu, il vaut mieux définir une URL canonique

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Annonces Google

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.