Vous êtes ici : Dossiers référencement > Indexation Google

Membre WebRankInfo ?

S'inscrire Aide

Interdire l'indexation avec l'entête HTTP X-Robots-Tag

Par Olivier Duffez , Jeudi 13 décembre 2007

Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, ... et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité...

L'entête HTTP, qu'est-ce que c'est ?

Il s'agit d'informations envoyées par le serveur web à celui qui cherche à accéder à un document (que ce soit le navigateur d'un internaute, le robot d'un moteur de recherche ou n'importe quoi d'autre). Une de ces informations est le code de statut HTTP, dont les valeurs les plus connues sont les suivantes :

  • 200 : le document a été trouvé, il est bien disponible
  • 301 : le document n'est plus disponible à l'adresse demandée, il a définitivement changé d'adresse (c'est-à-dire d'URL). On appelle ça une redirection permanente.
  • 302 : le document n'est plus disponible à l'adresse demandée, il a temporairement changé d'adresse (c'est-à-dire d'URL). On appelle ça une redirection temporaire.
  • 404 : le document est introuvable à l'adresse indiquée

Il y a bien d'autres codes (consultez la liste des codes HTTP si vous voulez plus de détails) mais l'entête HTTP peut contenir plein d'autres informations :

  • le nom et la version du serveur web (exemple : Server: Apache/2.0.59 (Unix))
  • la date de dernière modification du document (exemple : Last-Modified: Wed, 26 Sep 2007 21:19:04 GMT)
  • la taille du documents, en octets (exemple : Content-Length: 7854)
  • le type de document (exemples : Content-Type: text/html ou Content-Type: image/gif)
  • et désormais la valeur du tag intitulé X-Robots-Tag

Valeurs possibles du tag X-Robots-Tag

Un peu comme la balise meta robots qui peut contenir plusieurs valeurs, sa version HTTP peut contenir les valeurs suivantes :

  • noindex : indique au robot qu'il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt
  • nofollow : indique au robot qu'il ne faut pas suivre les liens dans la page. Cela signifie que Google n'ira pas crawler les pages liées par la page contenant cette balise meta robots. Même si Google ne le précise pas dans son article, les moteurs ne tiendront pas non plus compte des liens présents sur la page dans leur algorithme (par exemple celui du PageRank).
  • nosnippet : indique au robot qu'il ne faut pas afficher de descriptif (snippet) dans la page de résultats. J'ai du mal à voir l'intérêt pour un webmaster d'utiliser cette possibilité puisque ce descriptif permet d'inciter l'internaute à cliquer sur le résultat (peut-être qu'il existe des cas où le descriptif créé par le moteur n'est pas assez pertinent aux yeux du webmaster).
  • noarchive : indique au robot qu'il ne faut pas laisser l'accès à la version en cache. Le lien "En cache" dans la page de résultats ne sera donc pas affiché. Ceci peut servir à ceux qui passent leurs contenu d'une version publique accessible à une version archivée payante (sites de journaux par exemple).
  • unavailable_after:date : indique au robot que la page ne doit pas ressortir dans les résultats après la date indiquée

Tout comme la balise meta, il est possible de combiner plusieurs valeurs en les séparant par des virgules, par exemple : X-Robots-Tag: noarchive, nosnippet

Cette directive HTTP a été introduite par Google en juillet 2007. Depuis décembre 2007, Yahoo la supporte également (source).

Vérifier le contenu de l'entête HTTP

Si vous souhaitez voir le contenu de l'entête HTTP, par exemple pour vérifier que votre implémentation de X-Robots-Tag est correcte, il suffit d'utiliser un des nombreux outils à votre disposition :

Discussion dans le forum : X-Robots-Tag

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur LinkedIn

Olivier DuffezConsultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).

Vous avez aimé cet article ? Partagez-le !

Vous aimez WebRankInfo ? Suivez-nous !

Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

2 commentaires

  1. Victor BRITO dit :

    Évidemment, il serait bon d'indiquer comment ajouter cette directive dans les fichiers. ;)

    En PHP, il doit en être comme suit :
    <?php header ('X-Robots-Tag: noindex,nofollow,noarchive'); ?>
    En veillant à ce que rien ne soit généré avant header (), bien entendu.

  2. Danny dit :

    Peut-on directement mettre cela dans apache au lieu de passer par un fichier php ?

    Merci d'avance pour une réponse

    Danny

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).

WebRankInfo sur Twitter

Suivez-moi sur Twitter !
WebRankInfo Twitter

Hébergement web

Hebergement web mutualise, dedie

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.

A partir de 1,90 EUR HT/mois.