Comment savoir si les URL de mon sitemap sont indéxées par Google ?

WRInaute discret
Bonjour,

J'aimerais connaitre un moyen/outil qui me permette de vérifier combien de mes url figurant dans mon sitemap, et lesquelles, sont indexées ou non par Google. Certaines pouvant être bloquées pour x raison. L'idée est de ne pas vérifier manuellement chacune de mes URL de mon sitemap.

Merci par avance.
 
Nouveau WRInaute
Bonjour,

Pour savoir combien sont indexées, l'info se trouve dans les Outils pour webmaster de Google, section Exploration > Sitemap.
Pour savoir lesquelles, utilisez la commande site:www.monsite.com puis un moyen de récupérer la liste des URL comme par exemple le bookmark présenté ici : http://www.onlinesales.co.uk/seo/bookmarklet/serps.php

Avec ca un petit coup d'excel et le tout est joué.
 
WRInaute discret
Bonjour,

Telnoth a donné la meilleure réponse :)

Si vous êtes moins courageux, faites un sondage statistique : prenez au hasard quelques urls et faites site:http://www.monurl.com/averifier dans google. Pas de réponse = pas indexé.
Vous n'avez pas tout mais vous pouvez diagnostiquer rapidement queqlues urls.
 
WRInaute discret
Merci pour vos réponses qui m'ont bien aidée.

J'ai réussi à extraire les URL de mon site indexées par Google via l'outil SeeUrank, et à les comparer avec celles de mon sitemap, afin de comprendre lesquelles ne sont pas indexées.

Par contre j'ai trouvé quelque chose de surprenant en faisant cette opération. Sur les 5000 URL annoncées (via la commande site:), l'outil me dit que seulement 500 sont réellement indexées. Même chose, quand je regarde dans les résultats de la recherche, au delà de la 50ème page de résultats, Google me dit que les autres URL sont similaires et donc il ne les a pas inclues dans ses résultats.

Qu'est-ce que cela veut-il vraiment dire ? 5OOO URL sont dans son index mais seulement 500 sont susceptibles de ressortir dans les pages de résultats de la recherche ?
Qui plus est certaines URL bloquées par le fichier robots.txt sont dans l'index de Google (je le vois en faisant la commande site:) mais ne sont pas indexées selon mon outil. Je n'arrive donc pas bien à saisir la différence entre ce que m'affiche la commande site: et ce qui semble réellement indexée dans le moteur de recherche...

Pouvez-vous m'éclairer là dessus ? :)

Merci d'avance !
 
Olivier Duffez (admin)
Membre du personnel
Si Google t'indique qu'il connait d'autres URL mais qu'il ne les affiche pas car elles sont très similaires aux autres, c'est que tu as des problèmes de contenus dupliqués...
Au lieu d'utiliser la commande site: qui ne donne qu'une approximation, va dans Google Webmaster Tools rubrique "Index Google > Etat de l'indexation" et tu sauras combien Google a indexé de pages HTML.
Ensuite, si tu es certain de savoir faire un sitemap exhaustif, regarde combien Google t'indique avoir indexé d'URL de ce sitemap.

Enfin, lis mon article qui explique pourquoi Google semble indexer des URL bloquées par le robots.txt
 
WRInaute discret
Merci.

En regardant dans les GWT, Google indique avoir indexé les 5000 pages de mon site. Or, dans les résultats de la recherche au-delà de la 53ème page, il n'y plus de résultats. Qu'est-ce que cela veut dire ? Que les autres pages qui ne dépendent pas des robots.txt sont pourries et n'ont pas de chance de pouvoir remonter dans les résultats de la recherche ? (à cause de DC, de contenu pas assez riche...). Pourtant j'ai réussi à faire remonter certaines de ces pages sur de la recherche plein texte dans le MR...

J'ai lu ton article, merci pour cette source d'infos :) du coup j'en conclue que parmi les 5000 pages que Google me dit avoir indexées, celles bloquées par le robots.txt sont potentiellement inclues (c'est ce que je peux voir après quelques tests, néanmoins elles ne 'saffichent pas toutes car Google ne va pas au-delà de la 53ème page pour mon site), mais sont en fait en état de semi-indexation.

Il y aussi un décalage entre ce que GWT me dit avoir indexé pour mon sitemap et ce que SeeUrank me remonte. Il y a moins d'URL dans les résultats de la recherche que ce que Google me dit avoir indexé vias les GWT. Bref, je dois avoir des soucis de contenu...
 
Olivier Duffez (admin)
Membre du personnel
la commande site: est prévue pour fonctionner avec une requête. Quand on le fait sans aucun mot, Google fait au mieux mais ne sait pas en fonction de quoi filtrer pour renvoyer les résultats.

si tu as un doute sur une URL précise, utilise la commande info: qui est prévue pour ça.

tu as combien d'URL dans ton sitemap exhaustif ? et combien d'indexées ?
 
WRInaute discret
J'ai 500 URL dans mon sitemap, pour 300 indexées selon les GWT, et 186 seulement pour SeeUrank. En fait l'intérêt était de ne pas parler en valeur numérique mais qualitative. GWT ne m'indiquant pas les URL qui ne sont pas indexées de mon sitemap, j'ai recherché avec SeeUrank les URL qui sont indexées sur Google et les ai comparées à celles de mon sitemap. Et c'est là que j'ai vu qu'il y avait de gros décalages entre ce que GWT m'indique au niveau de l'indexation et ce que je retrouve dans les résultats de la recherche. Je me demande si tous ces décalages ne sont pas aussi dû à des limites des ouitls... par exemple 50 pages pour la commande site:

Du coup je en sais pas comment déterminer les URL de mon sitemap qui ne sont pas indexées. A moins qu'elles le soeint toutes en réalité, et que c'est parce que GWT n'est pas très précis tout comme la commande site:. J'ai cru comprendre d'ailleurs que GWT avait pour habitude d'avancer que seulement la moitié des URL du sitemap sont indexées...
 
WRInaute discret
merci pour la commande info:

elle m'a permis de faire des tests qui me prouvent en effet que certaines URL que je pensais ne pas être indexées en vue des outils utilisés, le sont bien en fait.

L'ennui c'est que si je dois faire ça pour les 500 URL de mon sitemap cela va prendre un temps fou 8O Il y a t-il un moyen d'automatiser ça ? :D

Merci d'avance !
 
Olivier Duffez (admin)
Membre du personnel
j'ai oublié de préciser que la 1ère chose à faire est de dénombrer et lister les URL qui génèrent du trafic SEO. Pour ça, tu vas dans Google Analytics (ou autre outil), éventuellement sur une plage assez longue (plusieurs semaines ou mois).
 
Discussions similaires
Haut