1. ⭐⭐⭐ Grosse PROMO en cours sur ma plateforme SEO My Ranking Metrics
    Rejeter la notice

Connaitre toutes les pages de son site indexées dans Google

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Jeanne5, 4 Juillet 2013.

  1. Jeanne5
    Jeanne5 WRInaute occasionnel
    Inscrit:
    4 Juillet 2013
    Messages:
    360
    J'aime reçus:
    16
    Bonjour,

    Voici mon problème.

    Connaitre toutes les pages de mon site indexées dans Google ?

    Mon site a plus de 7 000 pages (sitemap fourni à GG et à 99% indexé).

    Mais GWT renvoie 7 300 pages indexées, il y a donc certainement des pages en DC qui sont indexées que j'aimerai nettoyer de l'index.

    Seulement je ne sais pas comment identifier ces pages en trop...

    J'aimerai donc récupérer la totalité des url indexées par GG de mon site.

    La commande site:monsite.com est bridée à 700 url.
    L'outil lien interne de GWT est limité à 1 000 url...
    Mon site n'est pas séparé en répertoire donc pas moyen de limiter les recherches avec inurl:

    Avez-vous une idée pour lister toutes les pages indexées par GG ?

    Je vous remercie d'avance.
    Je désespère un peu et a priori le Panda n'aime pas mes pages en trop.

    Merci.
    Jeanne.
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 761
    J'aime reçus:
    253
    Bienvenue sur WRI !

    ce que tu décris fait partie de ce que j'appelle la "masse noire" : les URL crawlées voire indexées et qui ne devraient pas exister. Et qui peuvent diminuer l'efficacité globale du référencement du site.

    ce n'est pas évident à déterminer. il faudrait que tu analyses les logs pour découvrir les URL crawlées par Google, pour ensuite voir lesquelles sont indexées.

    J'en parle aussi dans mes explications sur le crawl budget
     
  3. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 867
    J'aime reçus:
    70
    Voir utiliser un crawler de type Xenu ou SEO Spider pour passer en revue toutes les url crawlables par les moteurs de recherche, et les comparer avec les url que tu connais (via le sitemap, qui dans ce cas de figure peut s'avérer très pratique).
     
  4. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 446
    J'aime reçus:
    0
    même pas, car les url crawlables peuvent provenir de sources extérieures.
    exemple vécu : des aspirateurs de sites aspirent le contenu d'autres sites/forums. Dans le cas d'url longues (en fait pas si longues que cela), l'url visible est affichée avec des "..." afin de la raccourcir. Pour ces aspirateurs, c'est une nouvelle url et ça fera, selon la méthode de troncature, au pire plein de 404, sinon, éventuellement, des code 200 (ou 301, selon comme on gère) avec plein d'url dupliquées
     
  5. Jeanne5
    Jeanne5 WRInaute occasionnel
    Inscrit:
    4 Juillet 2013
    Messages:
    360
    J'aime reçus:
    16
    Merci à tous.

    J'avais commencé à écrire un soft pour analyser mes logs, et je voulais être sûr qu'il n'y avait pas de meilleures solution.
    Ou quelqu'un qui avait déjà fait ça...

    Merci Olivier, tu confirmes donc mon idée que la seule méthode est d'analyser les logs.

    Quelqu'un connait-il un script qui facilite ça ?

    Effectivement Leonick, les pages de ce type que j'ai réussi à trouver venaient de l'extérieur.
    Depuis j'ai amélioré le site avec de noindex et des canonical quand le REQUEST_URI ne correspond pas à celui que j'attend.

    Mail il me reste cette fichu "masse noire" à identifier...
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 761
    J'aime reçus:
    253
    3 ans après, je réponds en vidéo (complétée par un article) :wink:
     
  7. aurelie92
    aurelie92 Nouveau WRInaute
    Inscrit:
    24 Avril 2016
    Messages:
    8
    J'aime reçus:
    0
    Bonjour, 100 fois que je lis des solutions à ces soucis de indexation, celle ci commence à me plaire.
     
  8. casasierrasalamanca
    casasierrasalamanca WRInaute occasionnel
    Inscrit:
    24 Février 2013
    Messages:
    364
    J'aime reçus:
    3
    génial Olivier, juste ce que je cherchais, genial!
     
Chargement...
Similar Threads - Connaitre indexées Google Forum Date
Connaitre les pages non indexées dans Google Crawl et indexation Google, sitemaps 15 Janvier 2010
Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ? Crawl et indexation Google, sitemaps 22 Janvier 2012
netlinking : 20 règles à connaître sur les liens Netlinking, backlinks, liens et redirections 2 Juillet 2019
Faire connaître un nouveau site Débuter en référencement 10 Septembre 2018
Faire connaître son site depuis Facebook ? Crawl et indexation Google, sitemaps 7 Septembre 2018
Reconnaitre la couleur d'un smartphone Android Le café de WebRankInfo 2 Mars 2018
Existe-t-il un outil pour connaître les liens d'un site web ? Netlinking, backlinks, liens et redirections 13 Octobre 2017
[Test] Connaître son niveau SEO Débuter en référencement 1 Juin 2017
Connaître avec précision le trafic d'un site tiers Administration d'un site Web 30 Mai 2017
Faire connaitre un site avant la mise en ligne Crawl et indexation Google, sitemaps 21 Mars 2017
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice