Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Déclarer son fichier sitemap dans le fichier robots.txt

Maintenant que les moteurs se sont accordés pour un protocole commun de fichier SiteMap, ils simplifient la soumission de fichier sitemap en proposant d’utiliser le fichier robots.txt (qui est pourtant historiquement utilisé pour indiquer les parties que l’on ne souhaite pas indexer…).

Jusqu’à présent ceux qui avaient créé un fichier Sitemap devaient le soumettre plusieurs fois : à Google dans Webmaster Central, à Yahoo dans Site Explorer (sans compter MSN/Live qui est censé gérer bientôt ce protocole). Désormais (voir l’annonce en anglais) il suffit d’une ligne de texte dans le fichier robots.txt (situé à la racine du site) contenant le mot sitemap et l’URL du fichier Sitemap sur le site (une URL absolue, commençant par http:// ou https://) :

Sitemap: https://www.example.com/sitemap.xml

Si vous n’avez pas encore de fichier robots.txt, c’est l’occasion d’en créer un. Vous ne craignez rien à en ajouter sur votre site, je vous rassure. Par contre, ne vous attendez pas à des miracles avec les fichiers Sitemaps, d’ailleurs pendant des années on a fait sans et l’indexation ne posait pas de problème pour autant…

Ceci dit, est-ce logique selon vous de rendre cette information publique ? Est-ce logique d’indiquer à vos concurrents où se trouve votre fichier sitemap (car son URL est libre) et donc la liste des pages stratégiques de votre site ?

A mon avis, vous devriez plutôt déclarer votre sitemap directement dans votre compte Google Search Console.

Je vous recommande chaudement de lire mon tuto sur le sitemap et son réel impact sur le référencement.

On parle de cette nouveauté dans le forum.

Cet article vous a-t-il plu ?

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

12 commentaires

Solutions internet

Le but est d’ajouter cette ligne dans le fichier robots.txt. les crawlers le trouveront.

Je ne pense pas qu’il y ai d’endroits particulier.

Répondre
hali

et ce que c intéressant d’ajouter ce lien ou nom

Répondre
Olivier Duffez

@hali : non ce n’est pas forcément intéressant, c’est plus par simplicité. Je pense qu’il vaut mieux déclarer ses sitemaps dans Google Webmaster Tools plutôt que de manière visible à tous dans son fichier robots.txt

Répondre
Astral God

« …plutôt que de manière visible à tous dans son fichier robots.txt »

Quels peuvent être les désavantages?

Répondre
Olivier Duffez

si le fichier sitemap XML est public, et qu’on prend le soin d’indiquer pour chaque URL son importance, c’est une info dont pourrait profiter les concurrents

Répondre
Noah

j’arrive sur le sujet 2 ans après, mais je ne suis pas d’accord avec les remarques ci-dessus.
renseigner le sitemap est primordial pour un bon référencement.

Le fournir « à la main » à google fait qu’on est pas indexé dans les autres moteurs, c’est totalement idiot. Le but d’un site est d’être vu par tous, pas seulement par les utilisateurs de google.

Pour ce qui est de donner des infos aux concurrents, la remarque est étonnante. Le sitemap ne fait que lister les pages publiques du site, donc déjà accessible par un navigateur ou pire, par un aspirateur de site.
Ne pas lister les pages publiques, ça n’a aucun sens. Si une page doit être cachée, alors elle ne doit pas figurer en publique…

Bref, renseigner le sitemap permet en une etape d’améliorer son référencement dans des centaines de moteurs de recherche.

Répondre
Olivier Duffez

Juste pour notre curiosité, tu connais combien de moteurs importants autres que Google et Bing qui gèrent les sitemaps ?

Répondre
Marc

Bonjour,

Mon fichier robots.txt contient ceci

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow:

Est-ce correct ou pas ?

Répondre
Olivier Duffez

Tu peux tester la validité de ce fichier directement dans ton compte Google Webmaster Tools.
Pour info, dans l’exemple donné tu n’interdis rien, donc autant ne rien mettre car le fichier robots.txt ne sert qu’à interdire de crawler certaines parties d’un site. Tu peux mettre un fichier vide.

Répondre
Marc

Je te remercie pour l’information !

Bonne journée à toi

Marc

Répondre
Jimmy

A propos du commentaire suivant lu un peu plus haut : « Pour ce qui est de donner des infos aux concurrents, la remarque est étonnante. »

Lister la totalité de ses URL dans un sitemap ouvert à tous est en effet un bon moyen pour la concurrence de connaitre, par exemple, le volume d’une base de données, son contenu, l’architecture du site, les fréquences de mises à jour, etc… Et donc de permettre à la concurrence de situer le site sur son marché (après, tout dépend du marché sur lequel on travaille, naturellement…). Personne n’irait donner les clefs de chez soi au premier inconnu qui passe. Ici, c’est un peu la même problématique. Il est important de laisser ses concurrents dans le flou pour ne pas les motiver si, au final, on fait mieux et plus qu’eux…

En ce qui me concerne, tous mes flux XML sont uniquement accessibles aux moteurs que je sélectionne via une reconnaissance par DNS Reverse. Tout ce qui n’est pas Google ou Bing et qui tente de lire le répertoire Sitemap est renvoyé sur une page 404.

Il est aussi important de mettre en place tout un tas d’outils pour éviter les aspirations et le pillage automatique par des robots peu scrupuleux qui ont l’audace ne pas se présenter dans leur Header…

On frappe à la porte, mais vous n’êtes pas obligé d’ouvrir…

Et puis, pour finir, il faut aussi préserver sa bande passante et ses requêtes SQL… Dans une logique industrielle, se faire scanner par tout les robots, ça a un coût que seul l’éditeur du site paye au final… C’est souvent 50% du trafic d’un site… Et puis être présent sur Baidu (Chine) ou Yandex (Russe), franchement on s’en passe quand on speak french…

Répondre