Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Comment lister ses pages indexées par Google avec la commande site:

Le B-A-BA du référencement, c'est de faire indexer les pages de son site. Mais dans Search Console, Google ne liste pas celles qu'il a indexées, alors voici des astuces pour obtenir la liste des pages indexées, avec tuto vidéo.

Vous avez beau prévoir tout ce qu'il faut au niveau technique sur votre site, Google n'indexe pas toujours 100% des pages que vous aviez prévues. A l'inverse, il peut aussi indexer des URL que vous n'aviez pas anticipées.

Pour avoir obtenir une liste des URL indexées par Google sur un site, vous pouvez donc utiliser la commande site:. Celle-ci est prévue à l'origine pour restreindre une recherche par mots-clés à un site ou une partie de site en particulier.

Mais si on ne met aucun mot-clé, on peut s'attendre à obtenir la liste exhaustive des pages indexées par Google. Dans la pratique ce n'est pas toujours aussi fiable que ça, mais c'est ce qu'on a de plus simple pour lister les pages dans l'index de Google.

Bon, concrètement, comment faire pour connaître les pages indexées par Google ?

Je vous ai résumé la technique dans un tuto vidéo  :

Retrouvez-la aussi sur YouTube : comment voir les pages indexées par Google

Remarque : il est possible aussi de trouver des infos dans la Search Console mais ce n'est pas non plus exhaustif. Je l'expliquerai dans un autre dossier.

Voici les étapes proposées dans ce tutoriel :

  • installez le bookmarklet permettant de récupérer d'un clic la liste des liens présents dans une page
  • lancez la requête site:example.com avec votre site
  • à l'aide du bookmarklet, récupérez les URL listées dans cette page 1 de résultats
  • tant qu'il reste des pages de résultats, faites pareil avec chaque page
  • regroupez toutes les URL à l'aide d'un outil (Excel ou éditeur de texte)

Quelques astuces :

  • si votre site contient plusieurs centaines d'URL, vous allez passer trop de temps avec seulement 10 résultats par page. Modifiez donc vos paramètres de recherche Google en cliquant sur la roue dentée en haut à droite d'une page de résultats. Puis :
    • dans "Prédictions de la recherche instantanée Google", cliquez sur "Ne jamais afficher les résultats de la recherche instantanée"
    • dans "Résultats par page", bougez le curseur sur 100
    • validez en cliquant sur "Enregistrer"
    • ainsi vous pourrez récupérer les pages 100 par 100 :-)
  • Google ne fournit jamais plus de 1000 résultats, ce qui complique les choses pour les sites de plus de 1000 pages indexées... C'est pourquoi je liste d'autres astuces ci-dessous.
  • si votre site contient des sous-domaines, faites (éventuellement) l'opération pour chaque sous-domaine. Pour rappel, la requête site:example.com restreint à l'ensemble du domaine example.com tandis que site:blog.example.com restreint au sous-domaine blog.example.com. Vous pouvez combiner avec des exclusions, par exemple site:example.com -site:blog.example.com liste les pages de tout le site, pour tous les sous-domaines sauf le blog.
  • si votre site est trop gros, répétez l'opération pour des sous-parties de votre site. Si vous avez des répertoires c'est facile, par exemple site:www.example.com/produits/ restreint au répertoire /produits/ à la racine de ce sous-domaine. Si vous n'avez pas de répertoires, mais des possibilités de repérer des sous-parties par un mot dans l'URL, utilisez la commande inurl. Par exemple site:www.example.com inurl:cat restreint aux URL contenant cat, ce qui peut correspondre à des pages de catégories.
  • si votre site contient à la fois des URL en HTTP et en HTTPS, sachez qu'il n'existe (toujours) pas de commande spéciale Google pour restreindre à un protocole en particulier (http, https, ftp, etc.). Vous pouvez essayer d'ajouter inurl:https pour lister les pages en HTTPS (mais une URL du type /blog/passer-en-https sortirait), ou bien -inurl:https pour les exclure.
  • vous pourrez peut-être tomber sur des cas où Google vous prévient qu'il connaît d'autres URL mais qu'elles sont "trop similaires" à celles déjà listées. En d'autres termes, ceci vous indique que vous avez des pages dupliquées... J'expliquerai dans un autre tuto comment exploiter cette info.

Exemple de texte affiché en cas de duplicate content :

Afin d'afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux 112 entrées actuelles.
Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis.

Et vous, comment faites-vous ? Avez-vous d'autres techniques, astuces ou outils ?

Cet article vous a-t-il plu ?

Note : 4.6 (11 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

11 commentaires

Adri111

Moi j'aime bien WMT comme ça je peux télécharger un exel avec les pages - nombre d'impression - nombre de clics et positions :-)

Répondre
Sylvain Tourrière

Merci pour cette méthode et les bookmarklets.
J'ai une question : parfois les ancres (anchor) ne correspondent pas à la balise TITLE de la page. A quoi est ce du ? Un problème de la commande site: ?

J'ai même comme texte dans l'ancre : " [Debug] This page has moved Please use the following URL instead ..."
alors que l'url répond correctement.
Les résultats de la commande site: ne sont elles pas mises en cache ?

Répondre
Olivier Duffez

c'était peut-être le titre de la page au moment où Googlebot est venu crawler la page

Répondre
samuel

Merci beaucoup pour ta solution, elle m'a été très utile, cependant google trouve une grande quantité de pages (plus de 1000) et ne m'affiche que 300 résultats (pas de contenu dupliqué)
Ai-je fait quelque chose de faux ?

Répondre
Olivier Duffez

Non, je pense que c'est la commande site: (sans mots-clés) qui n'est pas assez fiable

Répondre
Gerf

Merci pour cette article, très utile. Par contre j'ai le même problème que Philippe, ma recherche m'annonce 781 results mais au final j'ai 231 pages "normales" et 68 de plus si j'affiche les duplicate.
est ce que le premier chiffre (781) est fantaisiste à cause de la commande site: qui n'est pas prévu pour ça ?

Répondre
Olivier Duffez

Oui Gerf, ça doit être une explication...

Répondre
Philippe

Sur un petit site, site:www.restaurantlesgamins.fr affiche 45 résultats, lorsqu'en restant en affichage à 10 résultats parfois quand on clique sur la 4eme page tout disparaît et il n'y a plus que 2 pages de résultats... très étrange cette commande site:

Répondre
Olivier Duffez

en effet Philippe, cette commande site: n'est pas prévue pour ça, ce qui pourrait expliquer les résultats étranges.

Répondre
Williwaller

Bonjour,

Merci beaucoup pour cet article :)

Répondre
slave2.0

Bonjour, un grand merci pour cette vidéo qui m'enlève une épine du pied. j'avais clairement besoin d'identifier mes pages indexées.

Répondre