Vous avez beau prévoir tout ce qu'il faut au niveau technique sur votre site, Google n'indexe pas toujours 100% des pages que vous aviez prévues. A l'inverse, il peut aussi indexer des URL que vous n'aviez pas anticipées.
Pour avoir obtenir une liste des URL indexées par Google sur un site, vous pouvez donc utiliser la commande site:. Celle-ci est prévue à l'origine pour restreindre une recherche par mots-clés à un site ou une partie de site en particulier.
Mais si on ne met aucun mot-clé, on peut s'attendre à obtenir la liste exhaustive des pages indexées par Google. Dans la pratique ce n'est pas toujours aussi fiable que ça, mais c'est ce qu'on a de plus simple pour lister les pages dans l'index de Google.
Bon, concrètement, comment faire pour connaître les pages indexées par Google ?
Je vous ai résumé la technique dans un tuto vidéo :
Retrouvez-la aussi sur YouTube : comment voir les pages indexées par Google
Remarque : il est possible aussi de trouver des infos dans la Search Console mais ce n'est pas non plus exhaustif. Je l'expliquerai dans un autre dossier.
Voici les étapes proposées dans ce tutoriel :
- installez le bookmarklet permettant de récupérer d'un clic la liste des liens présents dans une page
- lancez la requête site:example.com avec votre site
- à l'aide du bookmarklet, récupérez les URL listées dans cette page 1 de résultats
- tant qu'il reste des pages de résultats, faites pareil avec chaque page
- regroupez toutes les URL à l'aide d'un outil (Excel ou éditeur de texte)
Quelques astuces :
- si votre site contient plusieurs centaines d'URL, vous allez passer trop de temps avec seulement 10 résultats par page. Modifiez donc vos paramètres de recherche Google en cliquant sur la roue dentée en haut à droite d'une page de résultats. Puis :
- dans "Prédictions de la recherche instantanée Google", cliquez sur "Ne jamais afficher les résultats de la recherche instantanée"
- dans "Résultats par page", bougez le curseur sur 100
- validez en cliquant sur "Enregistrer"
- ainsi vous pourrez récupérer les pages 100 par 100 :-)
- Google ne fournit jamais plus de 1000 résultats, ce qui complique les choses pour les sites de plus de 1000 pages indexées... C'est pourquoi je liste d'autres astuces ci-dessous.
- si votre site contient des sous-domaines, faites (éventuellement) l'opération pour chaque sous-domaine. Pour rappel, la requête
site:example.com
restreint à l'ensemble du domaine example.com tandis quesite:blog.example.com
restreint au sous-domaine blog.example.com. Vous pouvez combiner avec des exclusions, par exemplesite:example.com -site:blog.example.com
liste les pages de tout le site, pour tous les sous-domaines sauf le blog. - si votre site est trop gros, répétez l'opération pour des sous-parties de votre site. Si vous avez des répertoires c'est facile, par exemple
site:www.example.com/produits/
restreint au répertoire/produits/
à la racine de ce sous-domaine. Si vous n'avez pas de répertoires, mais des possibilités de repérer des sous-parties par un mot dans l'URL, utilisez la commande inurl. Par exemplesite:www.example.com inurl:cat
restreint aux URL contenantcat
, ce qui peut correspondre à des pages de catégories. - si votre site contient à la fois des URL en HTTP et en HTTPS, sachez qu'il n'existe (toujours) pas de commande spéciale Google pour restreindre à un protocole en particulier (http, https, ftp, etc.). Vous pouvez essayer d'ajouter
inurl:https
pour lister les pages en HTTPS (mais une URL du type/blog/passer-en-https
sortirait), ou bien-inurl:https
pour les exclure. - vous pourrez peut-être tomber sur des cas où Google vous prévient qu'il connaît d'autres URL mais qu'elles sont "trop similaires" à celles déjà listées. En d'autres termes, ceci vous indique que vous avez des pages dupliquées... J'expliquerai dans un autre tuto comment exploiter cette info.
Exemple de texte affiché en cas de duplicate content :
Afin d'afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux 112 entrées actuelles.
Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis.
Et vous, comment faites-vous ? Avez-vous d'autres techniques, astuces ou outils ?
Moi j'aime bien WMT comme ça je peux télécharger un exel avec les pages - nombre d'impression - nombre de clics et positions :-)
Merci pour cette méthode et les bookmarklets.
J'ai une question : parfois les ancres (anchor) ne correspondent pas à la balise TITLE de la page. A quoi est ce du ? Un problème de la commande site: ?
J'ai même comme texte dans l'ancre : " [Debug] This page has moved Please use the following URL instead ..."
alors que l'url répond correctement.
Les résultats de la commande site: ne sont elles pas mises en cache ?
c'était peut-être le titre de la page au moment où Googlebot est venu crawler la page
Merci beaucoup pour ta solution, elle m'a été très utile, cependant google trouve une grande quantité de pages (plus de 1000) et ne m'affiche que 300 résultats (pas de contenu dupliqué)
Ai-je fait quelque chose de faux ?
Non, je pense que c'est la commande site: (sans mots-clés) qui n'est pas assez fiable
Merci pour cette article, très utile. Par contre j'ai le même problème que Philippe, ma recherche m'annonce 781 results mais au final j'ai 231 pages "normales" et 68 de plus si j'affiche les duplicate.
est ce que le premier chiffre (781) est fantaisiste à cause de la commande site: qui n'est pas prévu pour ça ?
Oui Gerf, ça doit être une explication...
Sur un petit site, site:www.restaurantlesgamins.fr affiche 45 résultats, lorsqu'en restant en affichage à 10 résultats parfois quand on clique sur la 4eme page tout disparaît et il n'y a plus que 2 pages de résultats... très étrange cette commande site:
en effet Philippe, cette commande site: n'est pas prévue pour ça, ce qui pourrait expliquer les résultats étranges.
Bonjour,
Merci beaucoup pour cet article :)
Bonjour, un grand merci pour cette vidéo qui m'enlève une épine du pied. j'avais clairement besoin d'identifier mes pages indexées.