Rappel : si vous avez trop de pages zombies sur votre site, ça peut détériorer votre référencement. Mais surtout, améliorer une page zombie la transforme en bonne page qui vous génère du chiffre d'affaires.
➡️ Si vous l'avez raté : définition de page zombie et dossier présentation le concept des pages zombies.
Dans ce nouveau dossier, je vous détaille comment trouver des pages zombies introuvables par un crawl... Ainsi qu'une astuce pour que Google tienne compte très rapidement de vos corrections.
Je précise qu'avec cette méthode, j'en ai repéré sur plein de sites et ça m'a permis de faire de belles optimisations !
Le point commun de cette technique et de l'astuce associée est qu'elles se basent sur un audit de sitemap "avancé". Vous pouvez le faire "à la main" (mais ça risque d'être long) ou via l'outil de votre choix, ce qui compte c'est de bien comprendre le principe.
Pour ma part j'utilise RM Sitemaps couplé à RM Tech, 2 outils d'audit SEO de ma plateforme My Ranking Metrics. L'audit RM Sitemaps inclut toutes les fonctionnalités et astuces décrites dans ce dossier.
Les pages orphelines zombies
Définition de page orpheline
Commençons par le début : en référencement, qu'est-ce qu'une page orpheline ?
Une page orpheline est une page qui existe sur le site mais qui n'est pas reliée aux autres par un lien, en tout cas visible des moteurs de recherche.
Il y a plein de raisons qui peuvent expliquer la présence de pages orphelines.
👍 D'abord, il y a le cas des bonnes pages devenues orphelines.
Par exemple, pour des raisons techniques plus ou moins obscures, une page n'est plus trouvable par des liens compatibles Google :
- les pages qui lui font des liens sont désormais bloquées au crawl (fichier robots.txt)
- les pages qui lui font des liens (ou les liens eux-mêmes) sont gérées ou accessibles par Javascript, d'une façon incompatible à Google
- etc.
Ce n'est pas tout : l'erreur est souvent humaine. Par exemple, vous avez manuellement supprimé des vieilles pages de votre site, mais elles étaient les seules à faire des liens vers elle.
👎 A l'inverse, il y a les mauvaises pages orphelines (des candidates à devenir zombies...) :
- tout un tas d'URL qui produisent ce que j'appelle la masse noire : des URL qui n'auraient jamais dû exister mais que Google a crawlées et parfois indexées. Souvent, vous allez dire "c'est la faute du CMS"...
- des pages au contenu extrêmement faible
- des produits non disponibles à la vente mais dont la fiche produit s'affiche encore
- etc.
OK, mais si elles sont indexées, Google reviendra les crawler, alors est-ce si grave d'avoir ce genre de pages ?
Le problème des pages orphelines
Oui !
Une page de qualité mais qui est orpheline est handicapée, son référencement est moins efficace. S'il s'agit d'une fiche produit en vente actuellement, ou toute autre page qui pourrait générer du chiffre d'affaires, alors ses performances sont nettement plus faibles. En effet :
- elle ne reçoit pas de popularité (PageRank) par vos liens internes
- en l'absence de maillage interne, son optimisation sémantique chute
- les internautes la trouvent difficilement sur le site
- elle est moins souvent crawlée
- etc.
Il suffirait de connaître ces bonnes pages orphelines pour les réintégrer dans le maillage interne et qu'elles retrouvent un bon référencement...
Une page de mauvaise qualité orpheline dégrade la qualité moyenne du site perçue par Google sans que vous vous en rendiez compte. Il est donc important d'améliorer la qualité de ces pages, ou de s'en séparer selon les cas.
Comment trouver les pages orphelines ?
La méthode classique basée sur les sitemaps consiste à suivre ces étapes :
- faites un crawl de votre site (avec un crawler qui suit tous les liens autorisés au crawl) et filtrez pour ne récupérer que les pages indexables
- dressez la liste exhaustive de toutes les pages à faire indexer : si tout est bien fait, vous l'avez dans un sitemap (ou plusieurs)
- par différence, repérez vos pages orphelines "présentes dans les sitemaps mais introuvables par un crawl qui suit les liens"
C'est déjà bien, j'espère que vous l'avez déjà testé (depuis longtemps).
Je vous propose d'aller au-delà avec cette méthode avancée de découverte des pages orphelines via Google Analytics :
- faites un crawl de votre site (avec un crawler qui suit tous les liens autorisés au crawl) et filtrez pour ne garder que les pages indexables
- par l'API Google Analytics, récupérez les URL des pages ayant généré des visites depuis 1 an (support organic) et filtrez pour ne garder que les pages indexables
- par différence, repérez vos pages orphelines "vues dans Google Analytics mais introuvables par un crawl qui suit les liens"
Faites pareil pour trouver des pages orphelines via Google Search Console :
- faites un crawl de votre site (avec un crawler qui suit tous les liens autorisés au crawl) et filtrez pour ne garder que les pages indexables
- par l'API Google Search Console, récupérez les URL des pages ayant généré des impressions depuis 1 an et filtrez pour ne garder que les pages indexables
- par différence, repérez vos pages orphelines "affichées dans les SERP Google mais introuvables par un crawl qui suit les liens"
✅ Rappel : RM Sitemaps inclut la recherche des pages orphelines, tout est automatisé 👌
Que faire des pages orphelines ?
Vous obtenez au final une liste complète de pages orphelines. Voici ce qu'il faut en faire :
- si c'est une page de qualité, raccrochez-la au reste du site ! Faites-lui des liens depuis les pages les plus adaptées (selon leur contexte sémantique). J'ai eu d'excellents résultats avec les fiches produit d'un client (9% étaient orphelines...)
- si c'est une page de mauvaise qualité améliorable, au boulot !
- sinon, c'est une horrible zombie qu'il faut détruire. C'est justement l'objet de la suite de ce dossier.
Nettoyage accéléré des pages zombies
Je préfère le rappeler car c'est majeur : ma méthode des pages zombies consiste à :
- vérifier s'il existe des pages zombies qui peuvent plomber le référencement
- avoir un indice pré-calculé pour chaque page afin de prioriser les actions
- avoir le maximum de data pour comprendre la cause (pourquoi la page est-elle zombie)
- corriger le problème afin que la page soit de qualité et génère du trafic
- en dernier recours, désindexer ou supprimer les pages irrécupérables
Que vous ayez amélioré la qualité d'une page zombie ou au contraire fait en sorte qu'elle soit désindexée, c'est mieux si vous pouvez faire comprendre à Google que vous avez corrigé le problème.
Pour accélérer les choses, utilisez des sitemaps !
💡 Astuce : faites des sitemaps séparés, ça permet d'effectuer des analyses bien plus précises et efficaces dans la Search Console.
1 Pour les bonnes pages
Vous avez bossé dur pour améliorer la qualité de certaines pages ayant un indice zombie trop élevé. C'est bien ! Maintenant, le but est que Google s'en rende compte dès que possible.
- Regroupez toutes les pages concernées dans un sitemap. Faites au plus simple : un fichier texte avec une URL par ligne suffit largement.
- Nommez-le de façon à vous rappeler à quoi il correspond et déclarez-le dans la Search Console.
- Dans les jours qui suivent, observez le taux d'indexation de ses pages en étudiant la "couverture de l'index". Au lieu de laisser sur "Toutes les pages connues", filtrez pour limiter aux pages présentes dans ce fichier.
Vous devriez atteindre les 100% d'indexation et voir le trafic augmenter. Si ce n'est pas le cas, expliquez la situation dans mon forum.
2 Pour les pages zombies
Si certaines pages sont irrécupérables ou n'auraient de toutes façon jamais dû être indexées, c'est encore plus urgent de les faire disparaitre de l'index de Google.
Bien sûr, si toutes les pages sont regroupées dans un répertoire de votre site, et que tout ce répertoire est à supprimer, il suffit de demander sa désindexation dans Search Console. Mais si les pages sont mélangées à d'autres à conserver ?
L'astuce pour que Google désindexe les pages très vite, c'est de les mettre dans un sitemap (simple fichier texte) et de le déclarer dans la Search Console. Je rappelle qu'un sitemap ne sert pas à faire indexer des pages, mais à les faire crawler. En crawlant les pages, Google va constater que vous demandez leur désindexation (balise meta robots ou code 404/410). Evidemment, ne faites pas l'erreur de les bloquer dans le fichier robots.txt.
Vous devriez voir ces pages disparaître de Google dans les jours qui suivent (ou semaines s'il y en a énormément). Si ça prend trop de temps, c'est que vous avez fait une erreur, dans ce cas :
- faites un nouvel audit SEO pour contrôler que toutes vos actions ont été bien faites
- expliquez la situation dans le forum
Et vous ?
Avez-vous déjà cherché les pages orphelines sur votre site ? Y compris avec cette méthode avancée incluant Analytics et Search Console ?
Quelles techniques utilisez-vous pour corriger vos pages zombies et accélérer leur prise en compte par Google ?
J'attends vos commentaires !
Si vous avez des questions, posez-les dans le forum WebRankInfo.
Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.
Salut Olivier et merci pour ton article ... C'est du tout bon.
J'aimerais cependant avoir ton avis sur un point. J'ai un site de vidéo (tubelike) et après une analyse avec ton outil RM Tech, il s'avère que j'ai beaucoup de pages zombies ... principalement sur la pagination des catégories ainsi que la pagination des filtres (Plus vues, mieux notés ect)
Penses-tu que je devrais laisser indexer uniquement la pagination globale du site ainsi que la page d'accueil des différentes catégories et mettre en noindex le reste? (pagination des catégories ainsi que la pagination des filtres). Personnellement je suis assez tenté de procéder ainsi. Ces pages sont utiles pour mes visiteurs, mais je ne pense pas qu'elles représentent un grand intérêt pour les moteurs. Du coup, les mettre en noindex indiquera à Google de ne pas les indexer, mais il continuera tout de même de les crawler.
Voilà :) Merci par avance si tu as un peu de temps à m'acorder
On travaille à améliorer RM Tech sur cette partie, pour éviter de pointer du doigt les URL correspondant à des pages de la pagination.
Cela dit, ce n'est jamais bon d'avoir plein d'URL de ce genre. Il faut donc tout faire pour réduire les cas où la pagination est nécessaire...
La pagination doit être autorisée au crawl et à l'indexation, et être déclarée avec les instructions link rel=next/prev