X-Robots-Tag : directive pour bloquer les robots dans l’entête HTTP : explications
Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, … et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité…
L'entête HTTP, qu'est-ce que c'est ?
Il s'agit d'informations envoyées par le serveur web à celui qui cherche à accéder à un document (que ce soit le navigateur d'un internaute, le robot d'un moteur de recherche ou n'importe quoi d'autre). Une de ces informations est le code de statut HTTP, dont les valeurs les plus connues sont les suivantes :
- 200 : le document a été trouvé, il est bien disponible
- 301 : le document n'est plus disponible à l'adresse demandée, il a définitivement changé d'adresse (c'est-à-dire d'URL). On appelle ça une redirection permanente.
- 302 : le document n'est plus disponible à l'adresse demandée, il a temporairement changé d'adresse (c'est-à-dire d'URL). On appelle ça une redirection temporaire.
- 404 : le document est introuvable à l'adresse indiquée
Il y a bien d'autres codes (consultez la liste des codes HTTP si vous voulez plus de détails) mais l'entête HTTP peut contenir plein d'autres informations :
- le nom et la version du serveur web (exemple :
Server: Apache/2.0.59 (Unix)) - la date de dernière modification du document (exemple :
Last-Modified: Wed, 26 Sep 2007 21:19:04 GMT) - la taille du documents, en octets (exemple :
Content-Length: 7854) - le type de document (exemples :
Content-Type: text/htmlouContent-Type: image/gif) - et désormais la valeur du tag intitulé X-Robots-Tag
Valeurs possibles du tag X-Robots-Tag
Un peu comme la balise meta robots qui peut contenir plusieurs valeurs, sa version HTTP peut contenir les valeurs suivantes :
- noindex : indique au robot qu'il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt
- nofollow : indique au robot qu'il ne faut pas suivre les liens dans la page. Cela signifie que Google n'ira pas crawler les pages liées par la page contenant cette balise meta robots. Même si Google ne le précise pas dans son article, les moteurs ne tiendront pas non plus compte des liens présents sur la page dans leur algorithme (par exemple celui du PageRank).
- nosnippet : indique au robot qu'il ne faut pas afficher de descriptif (snippet) dans la page de résultats. J'ai du mal à voir l'intérêt pour un webmaster d'utiliser cette possibilité puisque ce descriptif permet d'inciter l'internaute à cliquer sur le résultat (peut-être qu'il existe des cas où le descriptif créé par le moteur n'est pas assez pertinent aux yeux du webmaster).
- noarchive : indique au robot qu'il ne faut pas laisser l'accès à la version en cache. Le lien « En cache » dans la page de résultats ne sera donc pas affiché. Ceci peut servir à ceux qui passent leurs contenu d'une version publique accessible à une version archivée payante (sites de journaux par exemple).
- unavailable_after:date : indique au robot que la page ne doit pas ressortir dans les résultats après la date indiquée
Tout comme la balise meta, il est possible de combiner plusieurs valeurs en les séparant par des virgules, par exemple : X-Robots-Tag: noarchive, nosnippet
Cette directive HTTP a été introduite par Google en juillet 2007. Depuis décembre 2007, Yahoo la supporte également (source).
Vérifier le contenu de l'entête HTTP
Si vous souhaitez voir le contenu de l'entête HTTP, par exemple pour vérifier que votre implémentation de X-Robots-Tag est correcte, il suffit d'utiliser un des nombreux outils à votre disposition :
- des outils en ligne comme celui sur WebRankInfo : analyse de l'entête HTTP (header)
- des outils intégrés au navigateur comme le propose le plugin Web Developer pour Firefox
- des logiciels spécialisés
Discussion dans le forum : X-Robots-Tag
Olivier Duffez, Jeudi 13 décembre 2007
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- La balise meta NOYDIR de Yahoo
- Robots.txt : Yahoo supporte les options avancées
- Sortie de GoogleStats v2.01
- Déclarer son fichier sitemap dans le fichier robots.txt
- Comment gérer simplement les sitemaps de plusieurs sites au même endroit
- Présentation des balises meta et utilité pour le référencement
- Des informations sur l'algorithme de Yahoo Search fournies par Priyank Garg
- Affichage de la description DMOZ dans MSN Search
- Les crawlers de Yahoo!
- Petit changement pour Slurp (le robot de Yahoo)
- La directive X-Robots-Tag
- robots.txt et balise meta robots, incompatibilité ?
- balises META et fichier robots txt
- Méta-tag "robots"
- Balise Meta Robots
- Balise meta robots index,nofollow
- Yahoo introduit la balise meta robots NOYDIR
- la balise meta robots est-elle vraiment reconnue ?
- La balise meta robots noodp pour contrer la description DMOZ
- Prise en charge du tag html robots
- Interdire certains robots ? Comment ? Quels robots ?
- Erreurs Robots.txt sans fichier Robots.txt
- méta tag "<META NAME="robots" "
- Meta robots ?
- syntaxe de la meta name robots
Consultez la description détaillée des produits ou services de Google suivants : Google Feed Fetcher, Google Sitemaps, Google Site Stats, Google Code, Google Co-Op
- Test du code HTTP d'une page
Cet outil vous permet de connaître le code HTTP renvoyé par le serveur pour une page donnée. - Calculer l'indice de densité
Cet outil vous permet de calculer l'indice de densité d'un mot-clé d'une page web. Il est calculé à la fois pour la balise TITLE, la balise META description et l'ensemble du texte de la page.
2 commentaires sur “X-Robots-Tag : directive pour bloquer les robots dans l’entête HTTP : explications”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Concepteur Multimédia et design sonore à Montpellier
- Hotel restaurant Le Pont Neuf à Florac Lozère dans les Gorges du Tarn
- Organisation coordination de tout type d'évènement en Haute Savoie
- Agence immobilière Somacimmo - Somain
- Hôtel de Bordeaux à La rochelle
- Vente en ligne de cactus plantes grasses et tillandsia
- TETRADIS, Distributeur spécialisé solutions interconnexion très haut débit
- Cartes, faire-parts et articles de papeterie à imprimer soi-même
- 17WebStore - Achetez aujourd'hui la technologie de demain
- Location de musique DJ pour trouver chaque soirée
- Santé des chiens et des chats : des vétérinaires répondent à vos questions
- Outils interactifs pour un développement durable facile en entreprises
- Must Animation : Dj animateur, organisation et l'animation évènementielle
- Location de villa et appartement à koh Samui en Thailande
- Le club des amateurs et passionnés des jeux de grille



Évidemment, il serait bon d’indiquer comment ajouter cette directive dans les fichiers. ;)
En PHP, il doit en être comme suit :
<?php header (’X-Robots-Tag: noindex,nofollow,noarchive’); ?>
En veillant à ce que rien ne soit généré avant header (), bien entendu.
Peut-on directement mettre cela dans apache au lieu de passer par un fichier php ?
Merci d’avance pour une réponse
Danny