Le fichier sitemap pour le référencement naturel
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Le guide complet du fichier sitemap Google pour le SEO

Voici tout ce qu'il faut savoir sur le fameux fichier sitemap et son impact sur le référencement. Ce tuto explique les risques d'une mauvaise compréhension de l'utilité du sitemap et donne de nombreux conseils.

Article mis à jour le 27/06/2023 (fin du ping)

Sommaire :

  1. Guide des sitemaps
  2. Créer un sitemap
  3. Intérêt pour le SEO
  4. Sitemaps dans Search Console

Tout savoir sur les fichiers sitemaps

J'écris "fichier sitemap" pour ne pas confondre avec le plan de site, cette page web destinée aux internautes, leur permettant de se situer dans le site et de comprendre la logique de son arborescence (cette page HTML est rarement nécessaire)…

Définition

Un sitemap est un fichier listant des URL du site que l'on souhaite faire crawler (et généralement aussi indexer). Au format sitemaps.org, il doit être déclaré aux moteurs de recherche. Il aide à faire des analyses SEO avancées.

Une fois que les moteurs auront consulté le fichier, si tout se passe bien ils iront explorer (crawler) les URL listées. Et donc si tout se passe (encore) bien, ils devraient indexer les fameuses URL.

Fichier sitemap XML
Exemple de fichier sitemap XML (sur elysee.fr). Le format XML n'est pas obligatoire.
Audit de sitemap

Si vous souhaitez vérifier vos sitemaps et découvrir plein de possibilités pour améliorer votre référencement grâce à un audit avancé de sitemaps, découvrez mon outil RM Sitemaps. Disponible dans ma plateforme SEO My Ranking Metrics, RM Sitemaps inclut plusieurs innovations et automatise la plupart du travail. Soyez plus efficace et découvrez en quelques clics des optimisations qui seraient passées inaperçues...

Le standard sitemaps.org

Sitemaps est un protocole proposé par les plus grands moteurs de recherche, permettant aux webmasters de lister les URL qui doivent être explorées en vue de leur indexation.

Historique :

  • Tout a commencé avec la version Sitemaps 0.84 publiée en juin 2005 par Google
  • En décembre 2006, les 2 autres moteurs leaders du moment (Microsoft avec Live Search rebaptisé Bing, et Yahoo) annoncent le support de Sitemaps 0.90 (voir le communiqué de presse). Le standard est né, décrit sur le site officiel sitemaps.org.
  • En avril 2007, Ask annonce le support des sitemaps. C'est également depuis cette date qu'il est possible d'indiquer des URL de sitemaps dans le fichier robots.txt

Désormais, les moteurs de recherche suivants supportent le protocole sitemaps.org :

Nom du fichier sitemap

Vous pouvez choisir le nom que vous voulez pour le fichier sitemap, aucun nom n'est imposé.

D'ailleurs, vous pouvez créer autant de fichiers sitemaps que vous voulez (ou presque). Si vous en avez beaucoup, vous pouvez créer un fichier index de sitemaps qui se borne à lister les URL des fichiers sitemaps.

Mieux vaut choisir un nom de fichier difficile à deviner, pour éviter de donner des informations à vos concurrents (ils n'ont pas à savoir quelles pages vous souhaiter faire indexer en priorité). Arrêtez donc de le nommer sitemap.xml ou pire, de l'indiquer dans votre fichier robots.txt (allez directement dans Google Search Console).

Comment trouver le sitemap d'un site ?

Vous ne pouvez pas trouver le sitemap XML à coup sûr puisque l'URL précise du ou des sitemaps est totalement libre. Voici tout de même plusieurs solutions à tester :

  • vérifier à la racine du site : /sitemap.xml
  • si le site est sur WordPress et qu'il utilise Yoast SEO : /sitemap_index.xml
  • regarder dans le fichier /robots.txt si le fichier sitemap est déclaré (il peut y en avoir plusieurs)

Qu'est-ce qu'un index de sitemaps ?

Si vous possédez plusieurs sitemaps, vous pouvez utiliser un fichier d'index de sitemaps pour les envoyer en une seule fois. Le format XML d'un fichier d'index de sitemaps est très similaire au format XML d'un fichier sitemap. Le fichier d'index de sitemaps utilise les balises XML suivantes :

  • sitemapindex : balise parent placée au début et à la fin du fichier ;
  • sitemap : balise parent pour chaque sitemap répertorié dans le fichier (noeud enfant de sitemapindex) ;
  • loc : emplacement du sitemap (noeud enfant de sitemap) ;
  • lastmod : date de la dernière modification du sitemap (facultatif).

Attention : un fichier d'index de sitemaps ne peut pas répertorier d'autres fichiers d'index de sitemaps. Il doit répertorier des fichiers de sitemaps uniquement.

Pour en savoir plus sur la syntaxe, consultez la page dédiée au protocole Sitemap.

Voici un exemple d'index de sitemaps au format XML. Cet index répertorie 2 sitemaps :

<?xml version="1.0" encoding="UTF-8 ?>
   <sitemapindex xmlns="https://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap-categories.xml.gz</loc>
      <lastmod>2015-01-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap-produits.xml.gz</loc>
      <lastmod>2015-01-01</lastmod>
   </sitemap>
   </sitemapindex>

Une fois que vous avez créé et enregistré votre fichier d'index, vous pouvez le déclarer à Search Console comme les autres fichiers sitemaps. Si vous déclarez le fichier index, il est inutile de déclarer les fichiers enfants listés dans ce fichier index (d'ailleurs si vous le faites, vous aurez des sitemaps en doublon ce qui ne pose pas de problème à part d'avoir des chiffres faussés dans Search Console).

Vous pouvez envoyer jusqu'à 500 fichiers d'index de sitemaps pour chaque site de votre compte.

Nombre maximum d'URL dans le sitemap

Quel est le nombre maximal de sitemaps et d'URL dans les sitemaps ?

Voici les limitations en termes de volume :

  • un fichier peut lister jusqu'à 50.000 URL
  • un index de sitemaps peut lister jusqu'à 50.000 fichiers sitemaps (mais pas de fichier index de sitemaps)
  • vous pouvez envoyer jusqu'à 500 fichiers d'index de sitemaps pour chaque site
  • une fois décompressé (car vous pouvez l'envoyer compressé), le fichier ne doit pas dépasser 50 Mo (52 428 800 octets). Pour information, cette limite de 50 Mo date de novembre 2016, avant c'était 10 Mo

Cette limitation à 1 250 000 000 000 URL devrait convenir à la plupart d'entre vous ;-)

Et si vous déclarez des images dans votre sitemap : les URL des images comptent-elles pour la limite de 50.000 ? Non elles ne comptent pas, sauf bien entendu que ça augmente la taille du fichier et donc son poids (source : John Mueller de Google, sur Twitter).

Quel encodage pour le fichier ?

L'encodage du fichier doit être UTF-8 (attention à bien y penser pour les sitemaps TXT).

Faut-il des URL complètes ou relatives ?

Les URL doivent être complètes (absolues) et non pas relatives. En clair, elles doivent commencer par "http" (ou "https" si vous avez un site en HTTPS, j'en reparle plus bas).

Quels moteurs de recherche gèrent ce standard ?

Tous les principaux moteurs de recherche gèrent ces fichiers sitemaps.

A condition bien entendu de leur indiquer l'URL de votre fichier, car comme je l'ai dit,  contrairement au fichier robots.txt dont le nom est fixé et l'emplacement imposé (à la racine du sous-domaine concerné), vous pouvez choisir le nom du fichier sitemap.

Faut-il un sitemap XML ou un simple fichier texte ?

Le fichier peut être au format texte (une ligne = une URL, extension .txt obligatoire) ou XML (standard sitemaps.org). Je n'ai jamais trouvé utile de s'embêter avec le format XML, le format texte va très bien, sauf dans les cas suivants :

  • les index de sitemaps nécessitent d'être en XML
  • les sitemaps pour les actualités
  • pour lister des images ou des vidéos situées dans la page HTML
  • pour fournir des informations destinées aux mobiles (l'URL pour mobile équivalente à l'URL desktop, détails ici)
  • pour fournir des annotations de langues (quand vous gérez plusieurs et/ou pays)

Il n'est pas possible d'utiliser un sitemap pour indiquer l'URL canonique, mais le fait de déclarer des URL dans un sitemap laisse penser à Google qu'il s'agit d'une URL importante, comprenez "canonique". Rappel : l'URL canonique se déclare dans la page HTML elle-même ou via l'entête HTTP X-Robots-Tag ; si besoin lisez mon tutoriel sur l'URL canonique.

A mon avis, le format XML ne s'impose pas si vous souhaitez seulement fournir un ou plusieurs des éléments ci-dessous :

  • lastmod : aussi étonnant que ça puisse paraître, Google ne tient généralement pas compte de la date de dernière modification ! (source)
  • changefreq : saurez-vous réellement donner une valeur exacte pour la fréquence de changement du contenu de chacune de vos pages ? Si c'est pour mettre une approximation, laissez Google repérer tout seul à quelle fréquence vous mettez à jour vos pages ! Google ignore ce paramètre (source)
  • priority : à moins d'avoir un tout petit site (genre 30 pages maxi), je doute fortement que vous réussirez à trier toutes vos pages de façon stricte et intelligente. Ca ne sert à rien de donner la même priorité à tout un tas de pages ! Par ailleurs, John Mueller (de Google) a déclaré que ce paramètre n'est pas pris en compte par Google (source) !

Partagez l'info sur Twitter :

Le saviez-vous ? Google ignore la priorité qui peut être définie pour chaque URL dans les sitemaps...Click to Tweet

Google tient-il compte du paramètre priority dans les sitemaps ?

Non, Google ignore la valeur de la priorité (priority) que vous indiquez dans un sitemap (source), même si cela fait partie du protocole officiel. Google se base sans doute sur une combinaison de facteurs pour décider quelles URL crawler. Depuis 2020 au moins, Google utilise des méthodes prédictives (IA) pour savoir quelles URL crawler.

Google tient-il compte du paramètre changefreq dans les sitemaps ?

Non, Google ignore la valeur de la fréquence de changement (changefreq) que vous indiquez dans un sitemap (source), même si cela fait partie du protocole officiel. Google se base sans doute sur une combinaison de facteurs pour décider quelles URL crawler. Depuis 2020 au moins, Google utilise des méthodes prédictives (IA) pour savoir quelles URL crawler.

Comment créer un sitemap XML ou texte

Il y a 2 grandes façons de créer un sitemap :

  • la meilleure façon : un script sur le serveur
  • la moins bonne : un outil en ligne (crawler)

En résumé, le sitemap généré par un script sur votre serveur est plus facilement sûr (exhaustif) et à jour que celui généré par un crawler.

Passer par un crawler pour générer un sitemap qu'on fournit ensuite à Google n'a aucun sens : Google sait déjà très bien crawler votre site, mieux que l'outil utilisé pour générer votre sitemap...

Création de sitemap intégrée au site (script serveur)

Il y a 2 cas de figure :

  • Si votre site est géré par un CMS, il y a de fortes chances que celui-ci intègre ou facilite la création de sitemap.
  • Sinon, développez vous-même votre script. Cela nécessitera un travail une fois (avec un peu de maintenance à prévoir) mais ce sera très efficace.

Voici quelques pistes selon les principaux CMS...

Créer un sitemap pour un site sur WordPress

Il faut installer un plugin, les meilleurs pour ça sont :

Créer un sitemap pour un site sur Prestashop

Prestashop fournit "Google sitemap", un module gratuit installé par défaut dans votre boutique. Installez-le puis configurez-le et terminez en cliquant sur Générer. Vous obtiendrez un index de sitemaps pour chaque langue.

Pour automatiser la génération du sitemap, récupérez l'URL de génération des sitemaps et incluez-la dans une tâche CRON.

Attention : depuis Prestashop 1.7 ce module a disparu... Vous pouvez le retrouver sur Github.

Vous pouvez aussi passer par un module complémentaire, il en existe des gratuits et des payants.

Comment faire un sitemap sur Joomla

Ici aussi il faut passer par une extension, dont vous trouverez une liste sur joomla.org.

Création de sitemap en ligne (sitemap generator)

Il existe une multitude d'outils en ligne permettant de générer automatiquement un sitemap. Citons par exemple XML Sitemap Generator qui fonctionne "sur le cloud" (online), gratuit mais limité à 2000 URL.

Je rappelle que c'est une très mauvaise solution, notamment car il faudra recommencer à crawler TOUT votre site dès que vous ferez le moindre ajout ou suppression de page...

Faut-il un plan de site automatique ?

Oui ! Je préfère insister : il faut absolument que la génération de votre sitemap soit automatique.

Donc non seulement il faut passer par un script (ou plugin, extension, etc.), mais il doit être actualisé automatiquement (par un CRON ou tout autre système adapté).

Peut-on envoyer un ping à Google pour un sitemap ?

Pendant des années il était possible d'envoyer un ping à Google pour le prévenir qu'un sitemap a été mis à jour. Google a annoncé en juin 2023 que le support de ce ping prendra fin au 1er janvier 2024.

Intérêt des sitemaps pour le SEO

Un fichier sitemap favorise-t-il le référencement ?

La réponse rapide est NON !

Il ne faut pas confondre indexation et positionnement. Mieux vaut travailler les liens internes que son fichier sitemap !

Dites-le sur Twitter :

Fournir un fichier sitemap à Google ne favorise pas le positionnement, mais peut s'avérer utile.Click to Tweet

En résumé : vous ne devriez PAS avoir besoin d'un fichier sitemap pour faire indexer vos pages. Sinon, ça veut dire que votre site est mal conçu : il manque de liens internes ou bien le nombre de niveaux dans l'arborescence est trop important.

Dit autrement : si certaines pages de votre site sont inaccessibles par le biais de liens (par exemple, la seule façon d'y accéder est de faire une recherche par formulaire), même si vous arrivez à les faire indexer avec le fichier sitemap, elles auront une très faible visibilité dans Google puisqu'elles n'ont pas de backlinks. Si vous êtes dans ce cas, il est bien plus difficile de déterminer si ces pages sont indexées grâce au sitemap ou grâce aux liens internes. C'est pourquoi je conseille souvent de démarrer SANS sitemap (pour valider la conception du site) et d'en ajouter ensuite si cela s'avère nécessaire (cf. mes explications ci-après).

Faut-il créer un fichier sitemap ?

Pour la plupart des sites je le recommande (voir les détails dans la suite du tuto). C'est d'autant plus important que votre site est gros ; à l'inverse, si votre site n'a que quelques pages, ce n'est vraiment pas une priorité.

Pour les gros sites qui génèrent chaque jour de nombreuses nouvelles pages, c'est très utile pour les faire découvrir rapidement à Google.

Quel est l'intérêt du sitemap pour le référencement ?

Le sitemap est utile en SEO :

  • pour accélérer le crawl et donc l'indexation des nouvelles URL mises en ligne
  • pour faire des analyses avancées et trouver des optimisations
  • pour trouver des pages orphelines
  • pour faciliter une refonte de site avec changement d'URL
  • pour comprendre quelles pages Google accepte d'indexer
  • pour évaluer les performances SEO selon les types de pages
  • pour accélérer la désindexation de certaines URL
  • etc.

Autre bonne raison de créer un sitemap et l'indiquer à Google : obtenir des informations plus fiables sur l'indexation de vos pages. C'est Google qui le dit officiellement (source)

Le Rapport de couverture de l'index fonctionne encore mieux pour les sites qui envoient des sitemaps.

Les sitemaps spécialisés : images, actualités, vidéos, mobile

Il existe d'autres cas où les sitemaps peuvent être utiles : il s'agit des contenus spécifiques pour lesquels un dérivé du format XML classique a été mis au point par Google. Il s'agit des images, des actualités, des vidéos et des contenus pour les mobiles.

Dans ces cas-là, le format XML est obligatoire, mais j'y reviens plus loin.

Dans la suite, je fournis d'autres conseils sur l'utilisation des fichiers sitemaps

Faites des sitemaps selon les types de pages !

Pour les gros sites qui ont besoin d'un fichier sitemap, vous pouvez en faire de 2 types :

  • 1 listant les dernières pages créées (pour tenter de gagner en vitesse d'indexation)
  • 1 par type de pages (pour essayer de mesurer le taux d'indexation par types de pages, par exemple fiches produits, catégories, articles éditoriaux, etc.)

Rappelons que pour avoir accès aux statistiques relatives à un fichier sitemap, il faut consulter votre compte Google Search Console.

Voici un exemple avec plusieurs fichiers sitemaps pour un site qui a plein de types de pages :

Liste des sitemaps dans Search Console
Si vous avez plusieurs types de pages (catégorie de produits, fiches produits, catégorie d'articles de blog, article de blog, etc.), faites un sitemap pour chacun !

En général on met les sitemaps à la racine du sous-domaine concerné, mais vous pouvez vous organiser autrement. Vous pouvez faire référence dans un sitemap à des URL d'autres sous-domaines, mais il faudra que votre même compte Google Search Console soit propriétaire de ces autres sous-domaines.

Faites des sitemaps par langue et/ou par pays !

Si vous avez un site multilingue, c'est une bonne idée de séparer votre sitemap (ou vos sitemaps) en plusieurs : un par langue. Si vous avez plusieurs sitemaps (par types de pages), redécoupez par langues.

Si vous avez un site qui cible plusieurs pays, là aussi vous avez intérêt à les séparer.

Dans les 2 cas, l'idée est de faciliter l'étude du taux de pages indexées selon les types de pages, les langues et les pays.

Faut-il un sitemap spécifique sur un site en HTTPS ?

Si votre site est accessible pour certaines pages/rubriques en HTTP et en HTTPS pour d'autres, vous devez déclarer chaque version séparément dans Search Console (autant de fois que vous avez de sous-domaines).

Je vous conseille de déclarer votre fichier sitemap dans Search Console (et pas dans le fichier robots.txt), donc déclarez les fichiers sitemaps pour les URL en HTTPS dans les propriétés HTTPS, et ceux avec des URL en HTTP dans les propriétés HTTP.

Prenons l'exemple du site example.com qui a un blog HTTP en sous-domaine http://blog.example.com et le reste en HTTPS https://example.com. Il faut :

  • déclarer ces 2 propriétés web dans Search Console
  • si possible déclarer aussi les autres versions (HTTP/HTTPS) de ces mêmes sous-domaines
  • prévoir le fichier robots.txt de chacune
  • prévoir les sitemaps de chacune
A propos, ne migrez pas vers HTTPS sans vous préparer : réussir sa migration vers HTTPS

Comment créer un fichier sitemap ?

Vous êtes nombreux à demander quels sont les meilleurs outils gratuits pour créer un sitemap. C'est simple : vous devez créer vous-même un script qui génère le ou les sitemap(s), ou bien utiliser un plugin de sitemap si jamais vous utilisez un CMS. Ce script ressemble fort à celui qui génère un flux RSS d'ailleurs. Vous pouvez faire autant de scripts (ou d'options) qu'il y a de types de pages sur votre site (si jamais vous suivez mon idée de créer un fichier sitemap par type de pages).

Evidemment, vous pouvez utiliser des scripts tout fait adaptés à votre CMS. Par exemple pour WordPress il y en a plein.

Avec cette solution, votre sitemap sera tout le temps à jour. Vous n'aurez jamais besoin de l'uploader quelque part (à part le déclarer à Google, cf. plus bas). Si besoin, gérez un cache afin de ne pas regénérer ce fichier à chaque fois qu'il est consulté par un crawler.

Voici les 3 meilleures raisons pour lesquelles vous ne devez jamais utiliser d'outil de génération de sitemap de type "crawler" (générateur de sitemap / sitemap generator) :

  • pourquoi utiliser un outil de crawl plutôt que de faire confiance à Google dont c'est le métier ? Pensez-vous vraiment que l'outil que vous choisissez sera plus performant que le crawler de Google ? Et d'ailleurs, pourquoi vouloir faire le boulot de Google ?
  • en faisant passer un crawler sur votre site, vous sollicitez votre serveur. Si l'outil que vous utilisez est mal conçu ou mal configuré, il risque de surcharger votre serveur en demandant trop de pages par seconde.
  • cette solution n'est pas automatisée : vous devrez penser à lancer l'outil, exporter le fichier généré et l'uploader sur votre serveur. Alors qu'avec le script que vous aurez fait, le sitemap sera toujours à jour.

Par contre, si vous utilisez un outil de type crawler pour faire d'autres analyses sur votre site, autant en profiter pour exporter un site map, ça peut toujours vous servir.

Comment trier les URL dans un sitemap ?

Inutile de les trier, l'ordre n'a pas d'importance. Ce qui est important, c'est que vos sitemaps soient exhaustifs (que toutes les URL soient listées).

Google l'a confirmé encore en 2020 :

L'ordre des URL dans un sitemap est-il important pour le crawl de Googlebot ? Faut-il mettre les URL les plus récentes au début ?

Non, l'ordre dans un fichier sitemap n'a aucune importance. Nous lisons les fichiers pour obtenir les URL du sitemap, puis nous traitons la collection d'URL indépendamment. L'ordre ou le choix du fichier sitemap ne joue aucun rôle.

John Mueller (employé de Google), juin 2020, Twitter

Les sitemaps dans Google Search Console (GSC)

Comment déclarer un sitemap à Google ?

L'interface GSC vous permet de déclarer un nouveau sitemap et de consulter les statistiques associées.

Pour envoyer un nouveau sitemap :

  1. Vérifiez que vous êtes connecté à search console avec le bon compte Google (il doit disposer des bons droits d'accès)
  2. Sélectionnez la bonne propriété (votre site, incluant le sous-domaine et le protocole)
  3. Dans le menu, cliquez sur Sitemaps
  4. En haut de l'écran, indiquez l'URL du fichier sitemap puis cliquez sur le bouton "Envoyer"

Il sera alors immédiatement analysé par Google qui vous indiquera rapidement si le format du fichier est conforme ou pas.

Voici les explications en image :

Ajout de sitemap dans search console
Les étapes de l'ajout d'un sitemap dans la search console de Google

Si vous utilisez un index de sitemaps, il suffit de le déclarer, inutile de déclarer chacun des sitemaps.

Compte-rendu des erreurs des sitemaps

Il n'y a plus directement de compte-rendu listant les erreurs de votre sitemap, comme avant dans Google Webmaster Tools ou dans la version précédente de Search Console.

Mais en fait vous avez encore plus de détails : il faut consulter le rapport "Couverture". Celui-ci indique si Google a rencontré des problèmes avec le crawl ou l'indexation. L'astuce à comprendre est qu'il faut filtrer le rapport "Couverture" en sélectionnant le sitemap à analyser.

Il faudra ensuite attendre un peu (quelques heures à quelques jours) afin d'avoir des statistiques : Google indique combien il a trouvé d'URL dans votre fichier (c'est ce qui est bizarrement nommé "Date d'envoi") et combien il a "décidé" d'en indexer (nommé "Dans l'index").

Google n'indexe pas forcément toutes les URL présentes dans un fichier sitemap car :

Pour en savoir plus, lisez pourquoi toutes mes URL ne sont pas indexées par Google ?

Faut-il renvoyer son sitemap régulièrement ?

Non, en général ce n'est pas nécessaire, je suis sûr que vous trouverez d'autres choses à faire plus utiles pour votre référencement ! Google vient consulter votre sitemap régulièrement, sans qu'il soit nécessaire de l'uploader à nouveau. Consultez la page sommaire des sitemaps dans GSC et vous verrez la date de dernière consultation par Google pour chacun de vos sitemaps.

Evidemment, ceci ne fonctionne que si votre sitemap est dynamique (construction à la volée quand on le consulte) ou très souvent mis à jour (par un processus automatisé chez vous).

Pour obtenir encore plus d'aide

Vous avez plusieurs moyens :

Fichier sitemap et SEO
Un fichier sitemap pour Google, utile au SEO ? Ce dossier fournit des explications et des conseils pour exploiter les fichiers sitemaps XML ou TXT pour votre référencement naturel

Source de l'image d'entête : Shutterstock (sous license)

Cet article vous a-t-il plu ?

Note : 4.7 (37 votes)
Cliquez pour voter !

68 commentaires

Boni

Bonjour,
Je ne suis pas satisfaite du module qui gère mon sitemap, car je n'ai pas accès au priorités des pages ni de mentions de date de creation et de modification.
J'envisage de prendre un autre module (Prestashop) qui me permet plus de souplesse etc...
Ma question est:
Si je change mes sitemaps, je vais changer de nom de sitemap et de stucture.
Est-ce que cela va plomber mon site durant un certains temps et me refaire partir depuis le début ou est-ce que cela aura aucune implication sur mon référencement?
Merci!

Boniface

Olivier Duffez

@Boni : à mon avis, les priorités (et même les indications de fréquence de mise à jour et de dates) n'ont pas d'intérêt.
Cela dit, ça ne présente aucun risque de changer les sitemaps, y compris le nom du ou des fichiers sitemaps. Ce qui compte, ce sont les URL présentes dans ces sitemaps.
Est-il possible de connaître l'URL du site ?

chris

Merci pour l'article. Moi qui suis blogueuse j'ai rarement vu un article qui soit aussi utilement long!!

Oncle Jesse

Bonjour à tous et encore merci pour tous ces articles Olivier !

Une petite question :
Savez-vous si la mise en place d'un sitemap "grossier" (qui ne présenterait que les catégories par exemple) peut être mal perçu ou mal compris par nos amis moteurs de recherche ?
En l’occurrence ce serait pour un site bilingue, et l'idée serait de faire comprendre que la home et chaque catégorie existe dans deux versions (une par langue) en utilisant les balises rel="alternate" hreflang.
Pour les articles et autres pages de moindre importance l'idée serait de laisser les bots faire comme bon leur semble.

Un avis la dessus ?
Bonne journée à tous !

Olivier Duffez

Il n'y pas d'histoire de "mal perçu" ! Le sitemap est un outil permettant d'inciter Google à crawler certaines URL.

Anthony

Merci !
Je suis dans une situation ou google refuse d'indexer une nouvelle partie d'un de mes sites je tente donc le site map pour voir si c'est un blocage volontaire de google ou bien si j'ai raté mon linking sur la nouvelle partie

Anthony

Bonjour et merci pour cet article détaillé.

J'ai J'ai une question concernant les sitemaps mis à jour régulièrement pour référencer les nouveaux éléments du site.

Est-ce que google va consulter régulièrement les sitemaps qu'on lui à donné via GWT ? Ainsi prend t-il les mise à jour en compte fréquemment.

Olivier Duffez

Oui Anthony, Google consulte régulièrement les sitemaps qu'on lui fournit

FemmeTaureau

Merci pour tout éclaircissement. J'ai une question à poser et j'espère avoir une réponse. J'ai lu l'article et aussi les commentaires. Il existe pas mal des personnes qui ont notifié que l'ajout d'un sitemap permet d'indexer les pages plus rapidement. Pouvez-vous nous donner des statistiques(des tests faits ou des sources à méfier) pour nous rassurer.

Julien

J'ai enfin compris qu'on peut 'forcer' Google à prendre en compte un nouveau sitemap plutôt que d'attendre qu'il le fasse tout seul. D'ailleurs, y a-t-il une fréquence minimum à laquelle le bot check ça ? Est-ce fait en même temps que le crawl des nouvelles pages ?

Olivier Duffez

@Julien : si tu lis bien l'ensemble de l'article, tu comprendras que le mieux est de se passer de sitemaps et qu'il ne faut pas s'embêter avec ce genre de questions...

Detectimmobilier

GG semble capable de trouver l'architecture d'un site sans sitemap

Olivier - 1zeste2web

Article intéressant même si effectivement on peut se demander si le sitemap a encore un réel intérêt. On peut imaginer que dans quelques années, on en parlera plus...

Jmleclercq

Merci pour cet article... très clair !

William

Merci beaucoup pour ces informations, en tant que débutant je découvre l'intérêt des fichiers htacces, robots, et sitemap et je pensais vraiment que ce dernier devait d'une part s'appeler "sitemap.xml" et d'autre part qu'il était indispensable au référencement. Je vais pas le supprimer mais pour la prochaine fois, je ferais sûrement les choses un peu différemment; encore merci. :)

Khalan

Bonjour j'ai une question . Est ce que le fait d'ajouter une url à son sitemap lui permet de se faire indexer plus rapidement ?

Monica@Animation Commerciale

Alors pour résumer, Maître Olivier, le sitemap est donc une rustine tout de même utile pour les gros sites souhaitant accélérer l'indexation d'une flopée de pages, nouvelles ou réactualisées.
Dans le cas d'une migration pour un gros site à partir de 1000 pages, un nouveau sitemap reste-t-il tout autant souhaitable?
Pour une nouvelle page, poster son lien sur un réseau ou la plusser, twitter ou liker, est-ce plus rapide qu'un nouveau sitemap en terme d'indexation?
Dernière question: indexer des pages c'est bien, mais quand-est il de la démarcation entre index primaire et secondaire dont l'un comptant juste pour le décorum?
Merci Mister (bravo pour ces vrais articles et conseils en béton)

Olivier Duffez

Oui pour une migration d'un gros site, faire un sitemap fait partie des nombreuses choses à faire.
Plusser une nouvelle page est sans doute très rapide, tout comme le sitemap. C'est mieux car on fait d'une pierre deux coups.
Il n'est pas simple à mon avis de connaître de façon certaine si une page est dans l'index primaire ou secondaire (si ce dernier existe encore vraiment).

Dos

D'après mon expérience, un site map a l'avantage d'aide un indexer des pages web plus rapidement (on peut soumettre autant de fois qu'on veut son site map à google, alors qu'on est limité en nouveau url auprès de google). Sur un site nouveau, ou traitant d'un sujet à effet de buzz, cela permet dans certains cas d'avoir ses url référencés plus rapidement

janolapin

Olivier,

j'aimerai ton avis sur l'outil de sitemap inclus dans WordPress SEO: est-il optimiser en terme de ressources ou pas? Est-ce sinon paramétrable?

Par ailleurs, une fois un sitemap déposé puis reconnu, lors d'un nouveau site ou de changement sur un site, peut-on ensuite le supprimer et désactiver le script qui le produit sans conséquence négative vis-à-vis des moteurs?

Olivier Duffez

@janolapin : je ne connais pas les performances en termes de ressources, désolé. Je sais qu'il est pas mal dans la mesure où il fait un index de sitemaps et un sitemap par type de contenu. Il faudrait vérifier s'il y a une gestion du cache.
Cependant je ne vois pas pourquoi ce serait gênant de supprimer un sitemap après que Google l'a connu et exploité pendant un moment.
Ce qui peut gêner c'est de conserver un vieux sitemap qui n'est plus à jour et qui liste des URL qui ne doivent pas être crawlées.

jacques66

Merci pour cet article. Je doit avouer que je galere un peu car j'ai un site statique, dans lequel j'ai un dossier comprenant une boutique prestashop. J'espère que cette structure ne nuiera pas a mon referencement... Si vous avez des conseils, je suis preneur...

webgenery

Très bon article sur les sitemaps.
Pour ma part j'ai toujours un avertissement pour les sitemap images à propos de l'urlset dans googlewebmastertools.
Pourtant j'ai prix exemple sur le site de google, allez comprendre.
Et vous ça vous arrive aussi?

Olivier

@Olivier Duffez : Oops... Le site est acumeo.fr (je sais qu'il faut sérieusement le réformer et m'y prépare)... Merci pour l'aide et les suggestions !

Olivier Duffez

@acumeo : dans le forum SVP...

Bonjour 404

Petit retour d'expérience, ayant eu le cas à traiter très récemment.

Dans le cas d'un sitemap dynamique en PHP, le format de date des balises doit impérativement être au format 2013-02-01 (pour le 1er Février par exemple), le format 2013-2-1 ne marchera pas. Il faudra donc préférer en PHP la fonction date('Y-m-d') plutôt que getdate() qui posera problème avec les 0 manquants.

Pour le réécrire ensuite en xml, un simple
RewriteRule ^sitemap\.xml$ /sitemap.php [QSA,L]
en htacces devrait suffire.

Olivier Duffez

@Bonjour404 : le nom du fichier n'a pas besoin d'être sitemap.xml (au contraire, cf. mon article). La règle de réécriture n'a donc pas d'intérêt, on peut fournir directement le nom du fichier PHP à GWT.

slhuilli

@Olivier Bonsoir Olivier et désolé de répondre si loin dans le flux. Je pensais à tous les petits moteurs, y compris ceux installé sur des sites (comme phpDig, écrit en PHP mais qui n'a pas pignon sur rue).
Ma question peut aussi se reformuler ainsi : toutes les balises du protocole sitemap sont-elle *toutes* exploitées dès qu'un moteur sait "ingérer" le protocole sitemap ? Je pense notamment aux balises , est-elle vraiment toujours bien gérée ?
Merci

Olivier Duffez

@ slhuilli : désolé je ne comprends pas de quels moteurs tu parles. Les "moteurs installés sur des sites" se sont des moteurs de recherche interne ? Ils ne fonctionnent pas avec les sitemaps je pense, mais c'est au cas par cas. Tu penses à quels autres moteurs ? Et à quelles "balises" ?

OlivierA

Quelle peut être la raison d'une indexation partielle (50/54) par Google d'un petit site (avec sitemap) ? Il n'y a pas d'erreur d'exploration mentionnée dans GWT... Merci de vos lumières !

Olivier Duffez

@OlivierA : merci de poser la question dans le forum en précisant l'URL du site, ça sera bien plus facile d'avoir des réponses

Guillaume Chéruy

Merci pour cet article très instructif.
Je pensais que le sitemap aidait au référencement. J'ai du mal du coup à comprendre pourquoi un nombre incalculable de blogs, sites et articles assurent que le sitemap améliore le référencement de manière quasi indispensable...?

Olivier Duffez

Guillaume, tu ne sembles pas te rendre compte du nombre d'idées reçues qui circulent dans le référencement...

franz

WEBDEV génère des pages dynamiques sur le serveur de déploiement sous Windows : elles ne peuvent être appelées par une adresse URL.

Les pages awp sont aussi des pages dynamiques mais elles ont une adresse URL en dur et peuvent donc être référencées.

Olivier Duffez

@franz : ok merci je comprends mieux. Pourquoi faire simple quand on peut faire compliqué ?

carabde

Très intéressant.... J'ai toujours cru qu'un sitemap était nécessaire voir prémordial! Maintenant et avec cet article c'est différent.

saadaoui

J'ai installé le plugin xml-sitemap j'ai deux fichiers sitemap
/sitemap.xml ET /sitemap.xml.gz avec des Pages Web (539 Date d'envoi - 462 Dans l'index) mais pas pour les images , catégories, pages et posts comme montrés en haut . Je ne sais pas si je dois ajouter d'autres sitemap ?

franz

Les sitemaps sont indispensables dans l'utilisation de pages construites dynamiquement (par exemple les pages *.awp de Webdev de PC Soft).

Ce que je ne comprends pas, dans mes sites de présentations d'entreprises, c'est qu'un petit nombre de pages soient indexées par Google (par exemple 2 sur 18). Mais je n'ai pas de balises h1 h2.

Une explication?

Olivier Duffez

qu'est-ce que ça change que les pages soient générées dynamiquement ou pas ? si un sitemap est indispensable pour les faire indexer, c'est que le site est mal conçu, et le sitemap n'est qu'une mauvaise solution (une rustine).

Yves de Top Sites Infos

Article intéressant...c'est vrai qu'en matière de sitemap on entend tout et son contraire quant à la nécessité d'en avoir un ou pas pour son site...Dans mon cas, je crois pas que c'est nécessaire.

David Vietnam

J'ai remarqué qu'un sitemap ne donnant pas d'erreurs sur Google WT du type "url exclue par le fichier robots.txt", lorsqu'il était uploadé chez Bing WT, certaines urls ressortaient comme exclues par le fichier robots.txt Très bizarre car je parle du même site, même fichier sitemap et robots.txt L'outil de vérification des urls bloquées par robots.txt dans GWT donne le feu vert également.
Quelqu'un a-t'il rencontré ce problème?

maloc

Ça peut donc être utile pour une partie de site qui a du mal à se référencer, histoire de voir ce que fait google dessus ? Sans que pour autant, il soit nécessaire d'être exhaustif sur les autres pages du site (sur lequel je ne veux pas faire de sitemap étant donné qu'elles se placent comme il faut) ?

Est-ce qu'il n'a jamais été remonté de soucis suite à la mise en place d'un sitemap (notamment un sitemap mal fait par erreur ...) ? Perso j'hésite fortement à le faire parce que le reste du site se référence bien tout seul, sauf une catégorie qui malgré un contenu de bien meilleur qualité que la concurrence ne donne aucun résultat satisfaisant.

Olivier Duffez

@maloc : le sitemap ne doit pas lister des URL qui répondent en erreur, mais à part ça, et même avec ça, ça ne va pas casser ton référencement.

slhuilli

Bonjour,

Vous parlez du protocole sitemap (et oui certains voient ceci comme un protocole) qui a été mis en place par google. Est-on sûr que les autres sites qui exploitent les sitemaps s'appuient sur le même protocole ou existe-t-il des variantes telles qu'il en existe avec html et internet explorer ?

Olivier Duffez

@ slhuilli : tu écris "les autres sites" mais tu voulais dire "les autres moteurs" je suppose. Bing (et Yahoo à l'époque) le supportent également, je ne sais plus trop pour les autres. Tu penses à quels autres moteurs ?

Mango

Olivier écrit

>Non Mango, avec le code 304 la page n'est pas téléchargée, seul l'entête

Je vais regarder ça. Il y a certainement des choses à y apprendre. Et je confirme que google charge parfois des pages qui n'existent plus depuis plusieurs années, malgré un code 301 basique, et qui ne sont donc plus dans le sitemap.

Si je peux revenir sur l'index "mobile", le sitemap xml a en revanche la vertu de pouvoir dire très clairement à google si une url est ou pas . Or toutes ces url sont placées dans l'index "web" de google et non l'index "mobile". Et ça c'est un mystère pour moi. Il est logique qu'un site avec une version ordinateur et une version mobile présente un même article avec une mise en page standard d'un côté, puis une autre très allégée pour les mobiles. Et si google met ces deux pages dans le même index, il serait compréhensible qu'il considère cela comme du contenu dupliqué. Cela m'éclairerait beaucoup de savoir si quelqu'un a concrètement des url "mobile" effectivement retenues dans un index "mobile" de google.

Merci en tout cas à webrankinfo, à Olivier donc, pour ces articles toujours très bien écrits.

JobProd

Merci pour cet article. Avez-vous un plugin wordpress à conseiller pour générer automatiquement un sitemap ?

Merci beaucoup,
Romain

Olivier Duffez

@JobProd : à moins de produire un nombre incalculable de pages par jour, sinon c'est rarement nécessaire pour un site sous WordPress. Mais le bon WordPress SEO de yoast fait ça très bien.

Mango

Olivier écrit
>Oui ça existe, c'est l'entête if-modified-since. Voir aussi le code HTTP 304

Effectivement, mais sauf si je me trompe, ce n'est qu'en sollicitant l'url que le robot saura si la page correspondante est changée ou non. Et ce que je crois utile d'épargner au robot, et à la bande passante, c'est justement de charger tout ou partie d'une page pour constater que ce chargement était inutile.

Et il me semble que le robot peut décider d'y aller (ou non) en lisant dans une liste d'url toutes ces dates, sans en charger une seule, puis faire ses courses ...

Olivier Duffez

Non Mango, avec le code 304 la page n'est pas téléchargée, seul l'entête. Par ailleurs, ce n'est pas parce que tu mets certaines URL dans un sitemap que Google s'interdit d'aller voir les autres...

dgv

Merci pour ce récap.
Je me sens en phase avec certains points : script maison pour construire un sitemap format texte, utilité pour les gros sites.
Je vais vérifier l'utf8 ...

Mango

Bonjour Olivier, Je n'utilise pas en effet les expressions fréquence ni priorité. Je parle uniquement de date de dernière modification de chaque url, ou de rafraîchissement. Car si les données d'une page peuvent être inchangées, certains éléments de son code html peuvent l'être [ cosmétiques ou structurels ]. Donc mes sitemaps ont vocation à montrer une simple arborescence d'url, permettant de voir les nouvelles url, puis de constater les dates de rafraîchissement des pages correspondant à des url déjà existantes. Il faut dire aussi que mes pages sont servies par le même logiciel qui gère et pilote la base de données. Ce n'est donc pas un serveur standard, chez un hébergeur de site, qui fait ce travail, mais ce sont mes machines. Et j'ignore si un serveur du marché, comme "Apache" et sûrement bien d'autres, peut renseigner un robot sur la date de fraîcheur d'une page, sans sitemap, et sans servir l'intégralité de cette page au robot, afin qu'il constate qu'elle a ou non changé. Le mode "Head" peut-être.

Mon logiciel rafraîchit donc 24h/24 environ 25.000 pages/jour, en prenant en priorité les plus anciennes. Et chaque nuit il rafraîchit son sitemap. Étant donné que je travaille en permanence sur la structure des pages, css, microdata, cosmétique, le robot ne peut que constater un changement de chaque page par rapport à son archive précédente.

Ce qui me taquine beaucoup, c'est de savoir si l'index "mobile" existe dans google.

Olivier Duffez

Oui ça existe, c'est l'entête if-modified-since. Voir aussi le code HTTP 304

Mango

Bonjour et bonne année,

Il me semble également qu'un site bien structuré n'a en théorie pas besoin de sitemap, tant qu'il n'est pas trop gros. Mais un moment donné, sans sitemap, ne connaissant pas les dates de modifications des pages, les moteurs sont obligés de crawler "à l'aveugle" ( et donc inutilement ) la plupart des pages qu'ils visitent. Depuis que j'ai développé un sitemap automatique, les moteurs voient donc la date de modification de chaque url, et peuvent choisir de visiter, ou non, telle ou telle url, en fonction de l'intérêt qu'ils y portent, et de la date de dernière modification. Cela peut réduire de moitié le trafic robots. Mon site est une base de données dans laquelle google indexe aujourd'hui 3.000.000 de pages, sur un total de 5.000.000 de pages lues [ parfois 80 à 100 pages minutes pour les robots ].

J'en profite pour poser une question. Environ 280.000 de ces pages sont spécialement destinées aux mobiles, et donc bien rangées dans le sitemap mobile. Google dit bien avoir lu ces pages dans mon compte GWMT, et je les vois effectivement dans l'index web, mais il n'y a toujours pas de barre rouge indiquant l'index "mobile". Et je me demande s'il existe vraiment, cet index mobile ... quelqu'un a-t-il "sa" barre rouge à l'endroit de l'index mobile ?

Olivier Duffez

@Mango : Googlebot sait parfaitement adapter sa fréquence de crawl en fonction de la fréquence de mise à jour de chaque page. Google savait le faire bien avant d'introduire les sitemaps.

Je pense qu'il est plus utile d'étudier la façon dont Google crawle un site que de bichonner des super sitemaps XML avec un réglage des fréquences et des priorités (dont on ne sait pas ce qu'il en fait). Mais je peux me tromper, chacun ses petites habitudes !

rédaction web

Merci pour ce tutoriel bien pratique!
Idéal pour débutants que pour confirmés en SEO!
A bientôt!

Julia

je savais qu'un sitemap ne changerait rien au référencement, mais je pensais que c'était quand même obligatoire peu importe la taille du site pour que les robots indexent bien tout. Mais j'avoue que je n'en ai pas fait quand même et je pense que j'ai bien fait au final ^^

DestinationNet

Je pensais également que le sitemap permettait d'accélérer l'indexation des pages (surtout lors de l'inscription d'un nouveau domaine).

L'inscription d'un nouveau site dans GWT suffit-il à indexer rapidement la page d'accueil du site internet ?

Olivier Duffez

Inscrire son site dans GWT ne permet pas de le faire indexer (en tout cas je n'ai jamais testé mais j'espère pour vous que vous avez d'autres sources de liens au moment du lancement d'un site)

Luxury Countryside

Ajouter une url d'une nouvelle page dans son sitemap aide t'il à faire indexer plus rapidement cette page en général ?

Olivier Duffez

@Luxury : ça fait peut-être gagner des pouillèmes... Mieux vaut penser à mettre un lien depuis la home et à partager la page sur les réseaux sociaux

Citations célèbres

Merci du tuto.
J'utilise cette fonctionnalité, mais j'aime bien l'idée de créer des sitemap, par categorie,...

Robin

Pour les gros sites l'intérêt est aussi de mesurer son indexation : si on se rend compte que seulement 50% des pages sont indexées, ça permet de détecter un problème.

Olivier Duffez

@Robin : c'est bien ce qui est écrit dans mon article ;-)

Pépé

Pour un débutant comme moi toutes ces informations sont très intéressantes. J'ai fait un dossier sitemap, en pensant que c'était bon pour le référencement.

Kielo

Tout comme Alexandre je pensais le fichier sitemap indispensable et je l'avais donc mis en place sur tous mes sites, quelque soit leur taille. Bon, je ne pense pas que ça puisse me nuire, donc je vais les laisser.

Fenril

Merci Olivier, un petit rappel sur l'importance du Sitemap ne fait jamais de mal ;)
Pour ma part, j'aime les sites bien structurés comme pourrait l'être un livre :
- Titres (balise Title)
- 4eme de couv (meta Description)
- Chapitre (h1)
- Sous-chapitres (h2)
- Table des matières (Sitemap)

C'est vraiment ainsi que je pense la structure de mon site avant de le proposer à Google.

Alexandre

Merci pour toutes ces informations sur le sitemap, je pensais qu'il y avait quand même un impact sur le référencement.

Les commentaires sont fermés