Comment savoir si les URL de mon sitemap sont indéxées par Google ?

Discussion dans 'Débuter en référencement' créé par Beakido177, 10 Septembre 2014.

  1. Beakido177
    Beakido177 WRInaute discret
    Inscrit:
    11 Mars 2013
    Messages:
    53
    J'aime reçus:
    1
    Bonjour,

    J'aimerais connaitre un moyen/outil qui me permette de vérifier combien de mes url figurant dans mon sitemap, et lesquelles, sont indexées ou non par Google. Certaines pouvant être bloquées pour x raison. L'idée est de ne pas vérifier manuellement chacune de mes URL de mon sitemap.

    Merci par avance.
     
  2. Telnoth
    Telnoth Nouveau WRInaute
    Inscrit:
    3 Mai 2012
    Messages:
    8
    J'aime reçus:
    0
    Bonjour,

    Pour savoir combien sont indexées, l'info se trouve dans les Outils pour webmaster de Google, section Exploration > Sitemap.
    Pour savoir lesquelles, utilisez la commande site:www.monsite.com puis un moyen de récupérer la liste des URL comme par exemple le bookmark présenté ici : http://www.onlinesales.co.uk/seo/bookmarklet/serps.php

    Avec ca un petit coup d'excel et le tout est joué.
     
  3. usulfr
    usulfr WRInaute discret
    Inscrit:
    9 Décembre 2006
    Messages:
    134
    J'aime reçus:
    0
    Bonjour,

    Telnoth a donné la meilleure réponse :)

    Si vous êtes moins courageux, faites un sondage statistique : prenez au hasard quelques urls et faites site:http://www.monurl.com/averifier dans google. Pas de réponse = pas indexé.
    Vous n'avez pas tout mais vous pouvez diagnostiquer rapidement queqlues urls.
     
  4. Beakido177
    Beakido177 WRInaute discret
    Inscrit:
    11 Mars 2013
    Messages:
    53
    J'aime reçus:
    1
    Merci pour vos réponses qui m'ont bien aidée.

    J'ai réussi à extraire les URL de mon site indexées par Google via l'outil SeeUrank, et à les comparer avec celles de mon sitemap, afin de comprendre lesquelles ne sont pas indexées.

    Par contre j'ai trouvé quelque chose de surprenant en faisant cette opération. Sur les 5000 URL annoncées (via la commande site:), l'outil me dit que seulement 500 sont réellement indexées. Même chose, quand je regarde dans les résultats de la recherche, au delà de la 50ème page de résultats, Google me dit que les autres URL sont similaires et donc il ne les a pas inclues dans ses résultats.

    Qu'est-ce que cela veut-il vraiment dire ? 5OOO URL sont dans son index mais seulement 500 sont susceptibles de ressortir dans les pages de résultats de la recherche ?
    Qui plus est certaines URL bloquées par le fichier robots.txt sont dans l'index de Google (je le vois en faisant la commande site:) mais ne sont pas indexées selon mon outil. Je n'arrive donc pas bien à saisir la différence entre ce que m'affiche la commande site: et ce qui semble réellement indexée dans le moteur de recherche...

    Pouvez-vous m'éclairer là dessus ? :)

    Merci d'avance !
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 875
    J'aime reçus:
    272
    Si Google t'indique qu'il connait d'autres URL mais qu'il ne les affiche pas car elles sont très similaires aux autres, c'est que tu as des problèmes de contenus dupliqués...
    Au lieu d'utiliser la commande site: qui ne donne qu'une approximation, va dans Google Webmaster Tools rubrique "Index Google > Etat de l'indexation" et tu sauras combien Google a indexé de pages HTML.
    Ensuite, si tu es certain de savoir faire un sitemap exhaustif, regarde combien Google t'indique avoir indexé d'URL de ce sitemap.

    Enfin, lis mon article qui explique pourquoi Google semble indexer des URL bloquées par le robots.txt
     
  6. Beakido177
    Beakido177 WRInaute discret
    Inscrit:
    11 Mars 2013
    Messages:
    53
    J'aime reçus:
    1
    Merci.

    En regardant dans les GWT, Google indique avoir indexé les 5000 pages de mon site. Or, dans les résultats de la recherche au-delà de la 53ème page, il n'y plus de résultats. Qu'est-ce que cela veut dire ? Que les autres pages qui ne dépendent pas des robots.txt sont pourries et n'ont pas de chance de pouvoir remonter dans les résultats de la recherche ? (à cause de DC, de contenu pas assez riche...). Pourtant j'ai réussi à faire remonter certaines de ces pages sur de la recherche plein texte dans le MR...

    J'ai lu ton article, merci pour cette source d'infos :) du coup j'en conclue que parmi les 5000 pages que Google me dit avoir indexées, celles bloquées par le robots.txt sont potentiellement inclues (c'est ce que je peux voir après quelques tests, néanmoins elles ne 'saffichent pas toutes car Google ne va pas au-delà de la 53ème page pour mon site), mais sont en fait en état de semi-indexation.

    Il y aussi un décalage entre ce que GWT me dit avoir indexé pour mon sitemap et ce que SeeUrank me remonte. Il y a moins d'URL dans les résultats de la recherche que ce que Google me dit avoir indexé vias les GWT. Bref, je dois avoir des soucis de contenu...
     
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 875
    J'aime reçus:
    272
    la commande site: est prévue pour fonctionner avec une requête. Quand on le fait sans aucun mot, Google fait au mieux mais ne sait pas en fonction de quoi filtrer pour renvoyer les résultats.

    si tu as un doute sur une URL précise, utilise la commande info: qui est prévue pour ça.

    tu as combien d'URL dans ton sitemap exhaustif ? et combien d'indexées ?
     
  8. Beakido177
    Beakido177 WRInaute discret
    Inscrit:
    11 Mars 2013
    Messages:
    53
    J'aime reçus:
    1
    J'ai 500 URL dans mon sitemap, pour 300 indexées selon les GWT, et 186 seulement pour SeeUrank. En fait l'intérêt était de ne pas parler en valeur numérique mais qualitative. GWT ne m'indiquant pas les URL qui ne sont pas indexées de mon sitemap, j'ai recherché avec SeeUrank les URL qui sont indexées sur Google et les ai comparées à celles de mon sitemap. Et c'est là que j'ai vu qu'il y avait de gros décalages entre ce que GWT m'indique au niveau de l'indexation et ce que je retrouve dans les résultats de la recherche. Je me demande si tous ces décalages ne sont pas aussi dû à des limites des ouitls... par exemple 50 pages pour la commande site:

    Du coup je en sais pas comment déterminer les URL de mon sitemap qui ne sont pas indexées. A moins qu'elles le soeint toutes en réalité, et que c'est parce que GWT n'est pas très précis tout comme la commande site:. J'ai cru comprendre d'ailleurs que GWT avait pour habitude d'avancer que seulement la moitié des URL du sitemap sont indexées...
     
  9. Beakido177
    Beakido177 WRInaute discret
    Inscrit:
    11 Mars 2013
    Messages:
    53
    J'aime reçus:
    1
    merci pour la commande info:

    elle m'a permis de faire des tests qui me prouvent en effet que certaines URL que je pensais ne pas être indexées en vue des outils utilisés, le sont bien en fait.

    L'ennui c'est que si je dois faire ça pour les 500 URL de mon sitemap cela va prendre un temps fou 8O Il y a t-il un moyen d'automatiser ça ? :D

    Merci d'avance !
     
  10. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 875
    J'aime reçus:
    272
    j'ai oublié de préciser que la 1ère chose à faire est de dénombrer et lister les URL qui génèrent du trafic SEO. Pour ça, tu vas dans Google Analytics (ou autre outil), éventuellement sur une plage assez longue (plusieurs semaines ou mois).
     
Chargement...
Similar Threads - savoir sitemap indéxées Forum Date
comment savoir le taux de traffic d'une page concrète? Google Analytics 6 Avril 2019
Savoir le nombre de personne redirectionné Netlinking, backlinks, liens et redirections 22 Novembre 2018
LinkedIn : savoir si on a consulté un profil Autres réseaux sociaux 16 Juin 2018
Comment savoir si un site est pénalisé Débuter en référencement 22 Mai 2018
Comment savoir une technique SEO d'un concurrent Référencement Google 2 Mars 2018
Récapitulatif SEO, l'essentiel à savoir (compilation SERP Google/Bing) Techniques avancées de référencement 11 Janvier 2018
Astuce pour savoir si son site est en index mobile-first Google Référencement Google 16 Décembre 2017
comment savoir qui a visité mon blog? Problèmes de référencement spécifiques à vos sites 8 Septembre 2017
Comment savoir si Google considère un contenu comme un contenu dupliqué (DC) ? Débuter en référencement 3 Août 2017
Outil pour savoir si notre contenu a été pillé ? Référencement Google 27 Septembre 2016
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice