Annonces Google

Vous êtes ici : Dossiers référencement > Techniques de référencement

Trouvez vos pages indexées par Google (7 astuces simples + vidéo)

Par , le 15 avril 2016

Le B-A-BA du référencement, c'est de faire indexer les pages de son site. Mais dans Search Console, Google ne liste pas celles qu'il a indexées, alors voici des astuces pour obtenir la liste des pages indexées, avec tuto vidéo.

Vous avez beau prévoir tout ce qu'il faut au niveau technique sur votre site, Google n'indexe pas toujours 100% des pages que vous aviez prévues. A l'inverse, il peut aussi indexer des URL que vous n'aviez pas anticipées.

Dans Search Console, rubrique "Index Google > Etat de l'indexation", Google affiche une courbe montrant l'évolution du nombre de pages indexées depuis les 12 derniers mois. Voici à quoi ça ressemble :

Etat de l'indexation dans Search Console

La courbe Etat de l'indexation dans Google Search Console ne donne que le nb de pages indexées, pas leur liste

Même si c'est très intéressant, ce n'est pas suffisant car Google ne liste pas les URL des pages indexées...

Vous pouvez aussi chercher du côté des sitemaps, mais Google ne fournit que des nombres (cela dit c'est pratique pour calculer un taux d'indexation).

Pour avoir obtenir une liste des URL indexées par Google sur un site, vous pouvez donc utiliser la commande site:. Celle-ci est prévue à l'origine pour restreindre une recherche par mots-clés à un site ou une partie de site en particulier.

Mais si on ne met aucun mot-clé, on peut s'attendre à obtenir la liste exhaustive des pages indexées par Google. Dans la pratique ce n'est pas toujours aussi fiable que ça, mais c'est ce qu'on a de plus simple pour lister les pages dans l'index de Google.

Bon, concrètement, comment faire pour connaître les pages indexées par Google ?

Je vous ai résumé la technique dans un tuto vidéo  :

Retrouvez-la aussi sur YouTube : comment voir les pages indexées par Google

Voici les étapes proposées dans ce tutoriel :

  • installez le bookmarklet permettant de récupérer d'un clic la liste des liens présents dans une page
  • lancez la requête site:example.com avec votre site
  • à l'aide du bookmarklet, récupérez les URL listées dans cette page 1 de résultats
  • tant qu'il reste des pages de résultats, faites pareil avec chaque page
  • regroupez toutes les URL à l'aide d'un outil (Excel ou éditeur de texte)

Quelques astuces :

  • si votre site contient plusieurs centaines d'URL, vous allez passer trop de temps avec seulement 10 résultats par page. Modifiez donc vos paramètres de recherche Google en cliquant sur la roue dentée en haut à droite d'une page de résultats. Puis :
    • dans "Prédictions de la recherche instantanée Google", cliquez sur "Ne jamais afficher les résultats de la recherche instantanée"
    • dans "Résultats par page", bougez le curseur sur 100
    • validez en cliquant sur "Enregistrer"
    • ainsi vous pourrez récupérer les pages 100 par 100 :-)
  • Google ne fournit jamais plus de 1000 résultats, ce qui complique les choses pour les sites de plus de 1000 pages indexées... C'est pourquoi je liste d'autres astuces ci-dessous.
  • si votre site contient des sous-domaines, faites (éventuellement) l'opération pour chaque sous-domaine. Pour rappel, la requête site:example.com restreint à l'ensemble du domaine example.com tandis que site:blog.example.com restreint au sous-domaine blog.example.com. Vous pouvez combiner avec des exclusions, par exemple site:example.com -site:blog.example.com liste les pages de tout le site, pour tous les sous-domaines sauf le blog.
  • si votre site est trop gros, répétez l'opération pour des sous-parties de votre site. Si vous avez des répertoires c'est facile, par exemple site:www.example.com/produits/ restreint au répertoire /produits/ à la racine de ce sous-domaine. Si vous n'avez pas de répertoires, mais des possibilités de repérer des sous-parties par un mot dans l'URL, utilisez la commande inurl. Par exemple site:www.example.com inurl:cat restreint aux URL contenant cat, ce qui peut correspondre à des pages de catégories.
  • si votre site contient à la fois des URL en HTTP et en HTTPS, sachez qu'il n'existe (toujours) pas de commande spéciale Google pour restreindre à un protocole en particulier (http, https, ftp, etc.). Vous pouvez essayer d'ajouter inurl:https pour lister les pages en HTTPS (mais une URL du type /blog/passer-en-https sortirait), ou bien -inurl:https pour les exclure.
  • vous pourrez peut-être tomber sur des cas où Google vous prévient qu'il connaît d'autres URL mais qu'elles sont "trop similaires" à celles déjà listées. En d'autres termes, ceci vous indique que vous avez des pages dupliquées... J'expliquerai dans un autre tuto comment exploiter cette info.

Exemple de texte affiché en cas de duplicate content :

Afin d'afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux 112 entrées actuelles.
Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis.

Et vous, comment faites-vous ? Avez-vous d'autres techniques, astuces ou outils ?

Cet article vous a-t-il plu ?
Note : 5.0 (1 vote)
Cliquez pour voter !

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC,...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le SEO (+300.000 membres, 1,5 million de posts). Il est aussi cofondateur de Ranking Metrics, leader des formations webmarketing en France (SEO, AdWords, Analytics, réseaux sociaux) et éditrice de la plateforme MyRankingMetrics (crawler et audit SEO en ligne).

Article (Trouvez vos pages indexées par Google (7 astuces simples + vidéo)) publié par WebRankInfo dans la rubrique Techniques de référencement. Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

10 commentaires

  • slave2.0 a dit le

    Bonjour, un grand merci pour cette vidéo qui m'enlève une épine du pied. j'avais clairement besoin d'identifier mes pages indexées.

  • Williwaller a dit le

    Bonjour,

    Merci beaucoup pour cet article :)

  • Philippe a dit le

    Sur un petit site, site:www.restaurantlesgamins.fr affiche 45 résultats, lorsqu'en restant en affichage à 10 résultats parfois quand on clique sur la 4eme page tout disparaît et il n'y a plus que 2 pages de résultats... très étrange cette commande site:

  • Olivier Duffez a dit le

    en effet Philippe, cette commande site: n'est pas prévue pour ça, ce qui pourrait expliquer les résultats étranges.

  • Gerf a dit le

    Merci pour cette article, très utile. Par contre j'ai le même problème que Philippe, ma recherche m'annonce 781 results mais au final j'ai 231 pages "normales" et 68 de plus si j'affiche les duplicate.
    est ce que le premier chiffre (781) est fantaisiste à cause de la commande site: qui n'est pas prévu pour ça ?

  • Olivier Duffez a dit le

    Oui Gerf, ça doit être une explication...

  • samuel a dit le

    Merci beaucoup pour ta solution, elle m'a été très utile, cependant google trouve une grande quantité de pages (plus de 1000) et ne m'affiche que 300 résultats (pas de contenu dupliqué)
    Ai-je fait quelque chose de faux ?

  • Olivier Duffez a dit le

    Non, je pense que c'est la commande site: (sans mots-clés) qui n'est pas assez fiable

  • Sylvain Tourrière a dit le

    Merci pour cette méthode et les bookmarklets.
    J'ai une question : parfois les ancres (anchor) ne correspondent pas à la balise TITLE de la page. A quoi est ce du ? Un problème de la commande site: ?

    J'ai même comme texte dans l'ancre : " [Debug] This page has moved Please use the following URL instead ..."
    alors que l'url répond correctement.
    Les résultats de la commande site: ne sont elles pas mises en cache ?

  • Olivier Duffez a dit le

    c'était peut-être le titre de la page au moment où Googlebot est venu crawler la page

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.

Annonces Google


484 Partages