Astuces sitemaps
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

SEO : 9 techniques avancées basées sur les sitemaps

Saviez-vous que vos sitemaps sont très précieux pour auditer votre site et trouver des optimisations du référencement naturel ou faire un suivi ? Voici 9 utilisations avancées à appliquer sur vos sites.

Vous vous demandez sans doute "Comment les sitemaps pourraient-ils servir à améliorer mon référencement ?"

Je parie que pour vous, le sitemap c'est :

  • un fichier XML compliqué à faire (et pourtant, un simple fichier texte avec une URL par ligne suffit presque tout le temps)
  • un truc géré par Yoast ou toute autre extension de votre CMS
  • encore une demande de Google que vous trouvez pénible, mais que vous essayez de faire sans bien savoir si c'est nécessaire

Et pourtant...

Les techniques que je décris ici, basées sur les sitemaps, sont très efficaces !

2 utilisateurs de My Ranking Metrics m'ont transmis leurs résultats :

  • Astuce #1 : +171% de trafic organic pour les pages travaillées
  • Astuce #2 : +125% de CA (organic) pour les pages travaillées

Vous allez trouver des quick wins SEO, des méthodes permettant de progresser en référencement, de mieux gérer vos refontes, de gagner du temps, de forcer Google à tenir compte rapidement de vos modifs...

De quoi avez-vous besoin ?

Bien entendu, il vous faut un sitemap exhaustif (listant toutes les URL stratégiques de votre site), ou mieux encore : plusieurs sitemaps (un par type de page par exemple). Je vous conseille de passer par un plugin/extension de votre CMS, ou sinon de développer votre propre script sur votre serveur, mais surtout pas d'utiliser un outil externe qui crawle votre site. Si besoin, consultez mon guide complet du sitemap.

Si le SEO est important pour vous, il vous faut un outil d'audit de sitemap. Ce n'est pas obligatoire, mais très pratique pour automatiser tout ça. Je vous propose de tester le mien : RM Sitemaps. Cet outil situé sur ma plateforme My Ranking Metrics est extrêmement complet : il permet d'obtenir directement toutes les astuces listées ici.

Envie de voir à quoi ça ressemble ? Exemple de rapport d'audit des sitemaps (SEO)

Si vous n'utilisez pas mon outil, il vous faudra un crawler et faire des manipulations dans un tableur. Il vous faudra aussi pas mal de temps...

C'est parti !

1 Trouvez les pages prévues mais orphelines

💡 L'idée : Vérifiez que sur votre site, on trouve bien au moins 1 lien vers chacune de vos pages stratégiques (un lien compatible Google).

🔥 Pourquoi est-ce important ? Si une page ne reçoit pas de lien interne, elle est très fortement handicapée en termes SEO. Une analyse spéciale doit être faite car la page peut malgré tout être indexée (donc ça passe inaperçu).

📋 Comment faire ?

Voici comment trouver les pages orphelines listées dans les sitemaps :

  1. Votre sitemap doit lister toutes vos pages stratégiques
  2. Faites un crawl complet du site (en suivant les liens autorisés au crawl depuis la page d'accueil) et retenez les pages indexables
  3. Par différence, voyez quelles pages du sitemap sont absentes du crawl : ce sont les “orphelines des sitemaps”
  4. Pour chaque page stratégique orpheline :
    • comprenez la raison et corrigez le problème
    • faites aussi (à la main) des liens internes vers elle
  5. Pour les autres pages orphelines (sans intérêt) : supprimez/désindexez

👍 Les étapes 2 et 3 sont entièrement automatisées sur My Ranking Metrics !

Un petit schéma d'explications :

Pages orphelines des sitemaps
Ce diagramme de Venn compare les URL trouvées dans le sitemap et celles sur le site (crawl des liens).

Ce diagramme aide à identifier 3 groupes :

  • les URL trouvées à la fois dans les sitemaps et par un crawl des liens du site (on appelle ça "dans la structure") sont "OK".
  • les URL trouvées dans les sitemaps mais pas dans le site sont "orphelines des sitemaps"
  • les URL trouvées dans le site mais pas dans les sitemaps

📊 Que peut-on gagner avec cette méthode ? Les pages orphelines pour qui vous ajoutez des bons liens (entrants) internes vont voir leur référencement s'améliorer.

Voici l'exemple d'un petit site ecommerce (1344 produits) qui a utilisé RM Sitemaps combiné à RM Tech. Résultat : 168 URL de fiches produits étaient orphelines ! 2 mois après la correction, +171% de trafic organic pour ces pages !

🔀 Autre façon de faire : dans Google Search Console

d'abord, on va s'intéresser aux pages indexées :

Pages indexées absentes sitemap
A la recherche des pages indexées absentes des sitemaps
  1. Allez dans votre compte Google Search Console, rubrique "Couverture"
  2. Sélectionnez uniquement "Valides"
  3. Cliquez sur la ligne "Indexée, mais non envoyée via un sitemap" (si jamais elle est présente)
  4. Etudiez les pages concernées : Google les a indexées mais vous ne les avez pas fournies dans le sitemap.

⚠️ Attention, cette méthode n'est pas parfaite, car :

  • les pages indexées par Google ne sont pas forcément orphelines (elles peuvent très bien recevoir des liens internes)
  • Google ne liste que 1000 URL maximum. Si vous en avez plus, cette méthode est insuffisante.

Ensuite vous pourriez faire pareil avec les pages non indexées (c'est plus difficile) :

Pages non indexées
A la recherche des pages non indexées absentes des sitemaps

2 Trouvez encore d'autres pages orphelines

💡 L'idée : Fouillez un peu plus en exploitant d'autres sources de données

🔥 Pourquoi est-ce important ? Google indexe parfois des pages absentes de votre sitemap et pourtant orphelines. La qualité globale de votre site est évaluée en tenant compte de ces pages. Vous devez donc savoir les identifier.

📋 Comment faire ?

Voici comment trouver les pages orphelines absentes des sitemaps :

  1. Votre sitemap doit lister toutes vos pages stratégiques
  2. Faites un crawl complet du site (en suivant les liens autorisés au crawl depuis la page d'accueil) et retenez les pages indexables
  3. Avec l'API de Google Analytics, récupérez la liste des URL ayant généré des visites en organic sur les 2 derniers mois (période à ajuster selon vos tests)
  4. Avec l'API de Google Search Console, récupérez la liste des URL ayant généré des clics (ou des impressions, à vous de choisir) sur les 2 derniers mois
  5. Crawlez toutes les URL obtenues et retenez uniquement celles qui sont (encore) indexables
  6. Par différence, voyez quelles pages sont absentes du crawl et du sitemap : ce sont les "totalement orphelines"
  7. Pour chaque page stratégique orpheline :
    • comprenez la raison et corrigez le problème
    • faites aussi (à la main) des liens internes vers elle
  8. Pour les autres pages orphelines (sans intérêt) : supprimez/désindexez

👍 Les étapes 2 à 6 sont entièrement automatisées sur My Ranking Metrics !

Un petit schéma d'explications :

Pages orphelines
Ce diagramme de Venn compare les URL trouvées dans le sitemap, celles trouvées dans Analytics et Search Console et celles sur le site (crawl des liens).

Ce diagramme aide à identifier plein de groupes d'URL, notamment

  • les URL totalement orphelines et pourtant actives (il faut les booster par des liens internes)
  • les URL orphelines des sitemaps et pourtant actives
  • les URL absentes des sitemaps et pourtant actives
  • etc.

📊 Que peut-on gagner avec cette méthode ? J'adore cette technique avancée car elle permet de trouver vraiment plein d'URL orphelines. D'une part ça repère des horribles pages zombies, d'autre part c'est le genre de quick win qu'on aime en SEO (quelques liens internes vers les URL concernées et hop).

Exemple d'un utilisateur de ma plateforme My Ranking Metrics ayant exploité la méthode Pages Zombies

  • gros site ecommerce (~25 000 produits)
  • ~8% des fiches produits étaient orphelines !
  • 4 mois après la correction, +125% de CA généré en organic par ces pages !

Remarque : j'ai déjà expliqué cette méthode dans ce dossier.

3 Les pages du sitemap sont-elles indexables ?

💡 L'idée : Vérifier que toutes les pages du sitemap sont indexables (et lister celles qui ne le sont pas)

🔥 Pourquoi est-ce important ? Il faut régulièrement vérifier que vos sitemaps sont à jour (le script qui les génère est-il fiable à 100% ?). Il faut aussi régulièrement vérifier que sur le site rien n'empêche les pages d'être indexables (màj du CMS, de plugins, de librairies externes, modifs de la DSI ou du dév., modifs manuelles, etc.).

📋 Comment faire ?

Voici comment vérifier que les pages de vos sitemaps sont bien indexables :

  1. Votre sitemap doit lister toutes vos pages stratégiques
  2. Crawlez chacune des URL et vérifiez tous les points qui assurent que la page est bien indexable :
    • non bloquée dans le robots.txt
    • renvoie un code 200
    • non interdite d'indexation
    • n'indique pas d'URL canonique différente de l'URL crawlée
  3. Vous en déduisez la liste des URL non indexables

👍 Les étapes 2 et 3 sont entièrement automatisées sur My Ranking Metrics !

📊 Que peut-on gagner avec cette méthode ? Une page non indexable risque de ne plus être indexée au prochain crawl de Google (si ce n'est déjà fait). Et donc de ne plus générer de trafic ! Corriger le problème permet d'anticiper cette situation (ou de retrouver ce trafic si elle était déjà désindexée).

4 Les pages du sitemap sont-elles indexées ?

💡 L'idée : Vérifier que toutes les pages du sitemap sont indexées (et lister celles qui ne le sont pas)

🔥 Pourquoi est-ce important ? Une page non indexée ne risque pas de générer du trafic ! Pourtant elle est listée dans le sitemap, c'est donc un gros problème car il s'agit d'une page pour laquelle le référencement est important.

📋 Comment faire ?

Voici comment vérifier si les pages de vos sitemaps sont bien indexées :

  1. Votre sitemap doit lister toutes vos pages stratégiques
  2. Avec l'API de Google Search Console, récupérez la liste des URL ayant généré des impressions dans les 2 derniers mois (période à ajuster selon vos tests)
  3. Les URL du sitemap ayant généré des impressions sont sans doute indexées, pour les autres il y a un doute
  4. Complétez par une analyse directement dans Google Search Console, rubrique "Couverture" :
    • Filtrez "Toutes les pages envoyées" (ou un sitemap précis)
    • Affichez uniquement les pages "Valides" (elles sont indexées)
    • Regardez ensuite les pages "Exclues" (non indexées) pour comprendre pourquoi Google n'a pas voulu les indexer

👍 Les étapes 2 et 3 sont entièrement automatisées sur My Ranking Metrics !

📊 Que peut-on gagner avec cette méthode ? Vous allez retrouver du trafic en faisant (re-)indexer les pages concernées.

5 Accélérez la désindexation !

💡 L'idée : Désindexer plus vite une masse d'URL ayant été supprimées (ou mises en noindex)

🔥 Pourquoi est-ce important ? Utile pour gagner du temps en cas d'erreur (URL de la masse noire), en cas de désindexation/suppression de pages zombies irrécupérables, etc.

📋 Comment faire ?

Voici comment accélérer la désindexation Google :

  1. Assurez-vous que les URL concernées sont bien non indexables (suivez mon tuto si besoin)
  2. Faites un sitemap spécial désindexation qui liste toutes vos pages à faire désindexer. Remarque : il peut s'agir d'un simple fichier texte (avec 1 URL par ligne)
  3. Soumettez-le dans Google Search Console : ça va inciter Google à venir les crawler et constater qu'elles ne doivent plus être indexées
  4. Faites un suivi de la décroissance du nombre d'URL de ce sitemap qui restent indexées
  5. Supprimez le sitemap quand tout est désindexé

👍 C'est très pratique quand les URL à désindexer sont "mélangées" à d'autres qu'il faut conserver. Si toutes les URL à supprimer sont dans un même répertoire, cette méthode est inutile car il suffit de demander la désindexation du répertoire via Search Console.

📊 Que peut-on gagner avec cette méthode ? Vous gagnez un temps fou dans le nettoyage des mauvaises pages de votre site.

6 Maîtrisez vos refontes avec changement d'URL

💡 L'idée : Dans le cas d'une refonte avec changement d'URL, accélérez la prise en compte par Google

🔥 Pourquoi est-ce important ? Pour plusieurs raisons !

  • Pour faire découvrir à Google + vite les nouvelles URL
  • Pour surveiller l'évolution de l'indexation des nouvelles URL et la désindexation des anciennes URL

📋 Comment faire ?

Voici comment inciter Google à voir rapidement vos changements d'URL :

  1. Faites un sitemap des nouvelles URL pour inciter Google à les crawler rapidement (en complément des liens internes)
  2. Faites un sitemap des anciennes URL pour inciter Google à les recrawler rapidement (et constater vos belles 301)
  3. Soumettez ces 2 sitemaps dans Google Search Console
  4. Faites un suivi de l'indexation des nouvelles URL
  5. Faites un suivi de la décroissance des anciennes URL encore indexées
  6. Supprimez le sitemap des anciennes URL quand tout est désindexé

📊 Que peut-on gagner avec cette méthode ? Du temps ! Ainsi que pouvoir faire un compte-rendu au N+1 ou au client

7 Vérifiez que votre sitemap est exhaustif

💡 L'idée : Vérifiez la santé de votre sitemap : il ne doit pas oublier de pages importantes, présentes sur le site

🔥 Pourquoi est-ce important ? Même si ce n'est pas obligatoire, il est préférable d'indiquer dans votre sitemap 100% des pages à faire indexer.

📋 Comment faire ?

Voici comment trouver les pages oubliées par les sitemaps :

  1. Votre sitemap doit lister toutes vos pages stratégiques
  2. Faites un crawl complet du site (en suivant les liens autorisés au crawl depuis la page d'accueil) et retenez les pages indexables
  3. Par différence, voyez quelles pages du site sont absentes du sitemap

👍 Les étapes 2 et 3 sont entièrement automatisées sur My Ranking Metrics !

Comme vous l'avez compris, il s'agit des pages à droite sur ce schéma :

Pages orphelines des sitemaps
Ce diagramme de Venn compare les URL trouvées dans le sitemap et celles sur le site (crawl des liens).

📊 Que peut-on gagner avec cette méthode ? Cela vous donne plus de chances qu'elles soient crawlées régulièrement et ça vous facilite les analyses (notamment dans Search Console, quand vous filtrez le rapport "Couverture" avec votre sitemap).

8 Mesurez les performances SEO par type de pages

💡 L'idée : Mesurez les performances SEO par types de pages : les fiches produits, les catégories, les articles... Les URL sont-elles indexées, génèrent-elles des visites ?

🔥 Pourquoi est-ce important ? Souvent, on travaille l'optimisation du référencement par type de pages. C'est donc utile de savoir mesurer l'impact

📋 Comment faire ?

Voici comment mesurer les performances SEO par type de pages :

  1. Créez un sitemap pour chaque type de pages : fiches produits, catégories, articles de blog, etc.
  2. Si vous avez un site multilingue, déclinez ces sitemaps pour chaque langue, de façon séparée
  3. Déclarez tous ces sitemaps dans Search Console
  4. Etudiez l'état de l'indexation pour chaque type de pages, en filtrant le rapport "Couverture" avec chaque sitemap
  5. Avec l'API de Google Analytics, pour chaque URL de chaque sitemap, récupérez les performances (nb de sessions générées en organic, nb de vues de la page, valeur de la page, etc.) sur les 12 derniers mois (période à ajuster selon vos tests). Calculez ensuite les moyennes de ces métriques pour chaque sitemap.
  6. Faites pareil avec l'API de Google Search Console, pour les métriques clics, impressions, CTR et position moyenne

👍 Les étapes 4 et 5 sont en partie effectuées automatiquement par RM Sitemaps !

📊 Que peut-on gagner avec cette méthode ? Savoir mesurer le succès (ou l'échec...) de vos optimisations, c'est impératif. C'est inefficace de le faire de façon globale pour votre sitemap général. Croyez-en mon expérience, ceci va vous faire découvrir plein de choses utiles...

9 Générez le cache de vos pages

💡 L'idée : Utilisez votre sitemap pour (re)construire le cache de vos pages.

🔥 Pourquoi est-ce important ? Quand vous faites un reset du cache de vos pages, le premier visiteur (humain ou robot) qui consulte une page pas encore en cache ne bénéficiera pas d'une vitesse appréciable. Si c'est l'internaute, ça dégrade son expérience utilisateur ; si c'est Googlebot, ça peut réduire le nombre d'URL crawlées par jour.

Certains outils de gestion du cache proposent une fonction de reconstruction du cache, mais est-elle vraiment efficace ? Etes-vous prévenu quand cette opération est finie ?

📋 Comment faire ?

C'est très simple :

  1. Assurez-vous que votre sitemap liste de façon exhaustive toutes vos pages (donc toutes celles dont le cache est à recréer)
  2. Crawlez toutes les URL de ce sitemap, ou bien lancez un audit de sitemap

👍 L'étape 2 peut être assurée par RM Sitemaps. Si besoin, fournissez une liste d'URL en copier/coller (ça vous évitera de faire un sitemap pour ça).

📊 Que peut-on gagner avec cette méthode ? Vous êtes certain que le cache est bien en place pour 100% de vos pages et donc que tous les visiteurs (humains ou robots) profiteront d'un site très rapide.

Votre avis et vos autres astuces

J'espère que ma liste vous a plu ! Dites-moi en commentaires quelles astuces vous avez déjà testées.

N'hésitez pas à partager vos propres techniques ou à poser vos questions.

Cet article vous a-t-il plu ?

Note : 4.5 (18 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

6 commentaires

juramic

Bonjour, j'ai testé le sitemap de désindexation et google me dit " ERREUR URL envoyée désignée comme "noindex" ". Les url envoyées via mon sitemap de désindexation sont en 404. Pourquoi google me dit que c'est une erreur ? Que faire ? Merci

Répondre
Olivier Duffez

c'est normal, Google estime que les URL fournies dans un sitemap sont prévues pour être indexées (ce qui généralement le cas effectivement). Google indique que c'est une erreur car l'URL n'est pas indexable.

Répondre
juramic

Merci. J'ai donc enlevé les urls en erreur du sitemap de désindexation et je continuerai de les supprimer au fur et mesure des erreurs, et ça devrait finir par tout disparaitre alors :)

Répondre
Olivier Duffez

Je crois que je n'ai pas réussi à me faire comprendre.
Google a raison de dire que ce n'est pas normal d'avoir dans un sitemap des URL interdites d'indexation. C'est pour ça qu'il annonce ça comme une erreur.
Mais quand c'est VOULU d'avoir des URL non indexables afin qu'il traite plus rapidement leur désindexation, il faut les laisser dans ce sitemap spécial désindexation. C'est seulement quand toutes ces pages sont désindexées qu'on peut supprimer ce sitemap. Pour le savoir, il suffit de regarder la couverture de l'index en filtrant avec ce sitemap spécial.

Kami

Merci pour ces explications claires et agréables à lire. J

Répondre
Rebeca Duarte

Génial merci ;)

Répondre