Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Pourquoi Google n'indexe pas toutes les URL du sitemap ?

Il est assez courant que Google n'indexe pas toutes les URL pourtant fournies dans un fichier sitemap. Ce dossier liste toutes les raisons et vous fournit de nombreux conseils pour résoudre ce problème SEO.

Taux d'indexation des URL d'un fichier sitemap

Sauf cas particuliers, les URL que vous fournissez dans un ou plusieurs fichiers sitemaps devraient en effet être indexées par Google - au bout d'un certain temps.

Même si Google n'indique pas pour chaque URL fournie si elle est indexée ou pas, il indique le nombre de pages indexées ("dans l'index"), en plus du rappel du nombre d'URL fournies ("URL envoyées"). Vous pouvez donc calculer le pourcentage d'indexation (ou taux), qui dans l'idéal devrait être de 100% :

taux d'indexation = 100 x "dans l'index" / "URL envoyées"

Remarque : si besoin, consultez mon tutoriel sur les fichiers sitemaps
taux d'indexation d'un sitemap
Ce rapport de Search Console permet de calculer le taux d'indexation d'un sitemap fourni à Google

Raisons techniques d'une non-indexation

Il existe plusieurs raisons techniques qui font qu'une URL ne peut pas être indexée :

  • si elle renvoie un autre code HTTP que 200, elle n'est pas accessible de façon correcte et ne peut pas être indexée
  • si elle est bloquée dans le fichier robots.txt et que Google ne l'a pas encore indexée, étant donné qu'il n'est pas autorisé à la crawler, il ne pourra a fortiori pas l'indexer
  • si elle contient une balise meta robots noindex ou none, elle sera certes crawlée mais pas indexée
  • si un entête HTTP X-Robot-Tag noindex ou none est envoyé pour cette URL, elle sera certes crawlée mais pas indexée
  • si l'URL contient une URL canonique différente, il est probable que Google l'indexe mais sous l'autre URL (la canonique). Si vous n'êtes pas à l'aise avec les URL canoniques, lisez mon tutoriel.
  • si le type MIME n'est pas pris en charge par Google, elle ne sera pas indexée. Dans votre sitemap, mettez des URL de documents HTML ou PDF, Word, etc. mais pas des formats de fichiers inconnus.
Je fournis d'autres explications dans mon tuto sur le Crawl Budget de Google

Pourquoi Google n'indexe pas toutes les pages

Voici quelques pistes qui pourraient expliquer un taux de pages indexées trop faible :

  • le maillage interne n’est pas optimal : trop de pages sont trop profondes, c’est-à-dire accessibles en trop de clics (sur des balises a href) depuis la page d’accueil. Pour calculer la profondeur de chacune des URL de votre site, utilisez mon outil My Ranking Metrics pour lancer un audit "RM Tech". Vous pourrez ainsi identifier le genre de pages trop profondes afin de réduire leur profondeur. Au passage, 100% des pages de votre site seront passées au crible de plusieurs dizaines de critères techniques SEO, ce qui devrait vous aider à progresser ;-)
  • le site contient de nombreuses pages sans contenu (pas de produit disponible par exemple) ou trop similaires (contenu presque dupliqué)
  • le site ne dispose pas d’assez de backlinks profonds (c'est-à-dire pointant vers une page interne de votre site, pas la page d'accueil)
  • éventuellement : trop peu d’internautes consultent vos pages (Google vient parfois crawler des pages repérées via de nombreuses visites d’internautes avec Chrome)
Si vous ne vous en sortez pas tout seul : contactez-moi sur mon site pro

Précisions sur les rapports de la Search Console

Il peut aussi y avoir des explications liées au fonctionnement de Google Search Console.

D'abord, sachez que les nombres d'URL indiqués par Google pour les sitemaps sont actualisés une fois par jour. Si vous comparez à l'état de l'indexation (autre rapport de GSC), celui-ci n'est actualisé qu'une fois par semaine.

Enfin, il arrive parfois qu'un bug chez Google perturbe l'analyse. Par exemple, le nombre d'URL indexées peut être inférieur à la réalité en raison d'un bug reconnu officiellement par Gary Illyes en juillet 2015 (et corrigé ensuite : source).

Comment faire indexer une page immédiatement par Google

Pour faire indexer une page en particulier, c’est simple et rapide avec Google Search Console :

  1. allez dans « Exploration > Explorer comme Google »
  2. indiquez l’URL à faire indexer
  3. cliquez sur « Explorer »
  4. cliquez sur « Envoyer pour indexation »

Au bout de quelques heures, un jour maximum, la page devrait être indexée. Mais ce procédé manuel devrait rester exceptionnel ! Sinon c'est que vous avez un problème sur votre site.

Cet article vous a-t-il plu ?

Note : 4.1 (17 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

18 commentaires

Daniel

salut Olivier,

Je rencontre ce cas de figure avec un site : les articles de blog s'indexent mal.
Penses-tu que le fait que chaque article possède une DIZAINE de liens internes vers d'autres articles ou des pages produits soit un chiffre trop élevé = 10 liens internes par article ?

Quid de ce critère ?

merci

Répondre
Olivier Duffez

Non ce n'est pas un pb de faire des liens vers d'autres articles, au contraire.

Répondre
Fk

J'ai fait "explorer comme google/envoyer pour indexation" pour 3 pages récalcitrantes, mais j'ai l'impression qu'elles sont présentes dans l'index par intermittence, curieux non ?

Répondre
Olivier Duffez

Peut-être que les pages sont trop ressemblantes à d'autres, ou avec trop peu de qualité/valeur ajoutée. Ou bien la manière de tester l'indexation n'est pas fiable.

Répondre
Raphael

Bonjour. Vous dîtes que l'usage de la fonctionnalité "Envoyer pour indexation" doit rester exceptionnel. Sachant que nous avons un quota de 500 demandes, pourquoi ne pas en profiter pour envoyer toutes les pages intéressantes et éviter le plagiat du contenu. J'entends par là d'utiliser cette fonctionnalité pour les articles et autres pages à contenu de qualité. Et puis l'indexation automatique est parfois très longue...une perte de temps d'attendre non ?

Répondre
Olivier Duffez

l'indexation automatique ne devrait pas excéder quelques heures s'il y a un lien depuis la page d'accueil et un sitemap, à moins d'avoir un grand nombre de nouvelles URL par jour. j'ai dit que la demande manuelle d'indexation doit rester exceptionnelle car vous avez mieux à faire de votre temps, c'est tout !
moi aussi je l'utilise de temps en temps, par exemple pour faire des tests (et mesurer l'impact en sachant à quelle date précise Google a réindexé la page concernée).

Répondre
jeremy

Bonjour , j'ais remarquer que google index pas tout les url fourni via le fichier Sitemap pourtant en voyant le nombre de résultat de recherche google lorsque je fait site:monsite.fr je voie mes 200 url dans le fichier sitemap j'en voie que 100 pourtant mes url apparaisses bien sur google est-ce normal ?

Répondre
Olivier Duffez

la commande site: n'est pas toujours très fiable, et les données de Search Console pas forcément à jour. Par ailleurs, il peut y avoir des pages indexées qui ne sont pas dans le sitemap.

Répondre
evizdigital

la plupart des sitemap XML sont faux. L'une des valeurs ajoutées du SEO est de les vérifier ^^

Répondre
Olivier Duffez

La plupart, c'est un peu exagéré. Mais en effet, il faut régulièrement les vérifier.

Répondre
Cyynthia

Les nouvelles pages de Mon site (assurance-conseil.com) ne sont indexées qu'au bout de 5-6 jours. Ceci Est-il normal ?

Répondre
Olivier Duffez

Non ce n'est pas normal, sauf quand le site n'a aucune popularité (c'est peut-être le cas)

Répondre
ric

Bonjour, chez moi c'est un problème de sur indexation. J'ai le double de page indexé Google (plus de 500 au lieu de 200 ^^). Une idée ? ☺

Répondre
Olivier Duffez

@ric : là aussi il y a plein de raisons possibles, faudrait que j'écrive un autre article ! Le sitemap n'est peut-être pas exhaustif ?

Répondre
Bardolo

Je comprends mieux pourquoi sur google tool un de mes blogs (actuduweb.fr) n'avait pas toutes les pages d'indexées ! Merci pour le dossier !

Répondre
rom1

ok merci ;) par contre je pensais a une solution automatisée pour un domaine comprenant environ 3000 pages à indexées. Comment interrogé Google sans se faire bloquer ? n'existe t il pas de script ou d'outil disponible ?

Répondre
rom1

Existe t il une solution pour checker et donc sortir la listes des urls non indexées pour un domaine ?

Répondre
Olivier Duffez

@rom1 : oui mais il faut interroger Google à coup de nombreuses requêtes sans se faire bloquer

Répondre