1. Bienvenue sur le nouveau forum WebRankInfo ! Si vous avez envie d'en parler, c'est ici :-)
    Rejeter la notice

Augmentation pages indexées

Discussion dans 'Crawl et indexation Google, sitemaps' créé par potje59, 23 Octobre 2017.

  1. potje59

    potje59 Nouveau WRInaute

    Inscrit:
    5 Mars 2014
    Messages:
    6
    J'aime reçus:
    0
    Bonjour, j'ai depuis 1 mois environ une augmentation de nombre total de pages indexées, je suis passé de 5782 à 8275 sur ma search console.

    Il n'y a aucune raison concrète provenant du site pour justifier une telle augmentation.

    Lorsque que je fais "site:www" je ne vois pas cette augmentation, ce qui a tendance à me rassurer.

    Avez vous un cas similaire, serait-ce une incidence de mobile first ?

    Merci d'avance de vos réponses ! :? :wink:
     
  2. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
    aucun rapport avec le mobile first (à moins que ton site génère d'autres URL quand on vient avec un robot mobile)
    as-tu fourni à Google un sitemap exhaustif de toutes tes URL ? dans ce cas, combien de pages sont indexées selon Google ?
    as-tu crawlé ton site pour voir si tu trouves autant de pages que prévu ?
     
  3. UsagiYojimbo

    UsagiYojimbo Nouveau WRInaute

    Inscrit:
    23 Novembre 2005
    Messages:
    12 373
    J'aime reçus:
    0
    Je commente parce que je note un truc similaire chez un de mes clients depuis quelques jours sans qu'il y ait d'explication à donner (j'ai pointé certains bugs sur le site, mais rien qui n'explique une explosion de pages indexées : + 40 000 en 2 semaines).
     
  4. potje59

    potje59 Nouveau WRInaute

    Inscrit:
    5 Mars 2014
    Messages:
    6
    J'aime reçus:
    0
    Un sitemap exhaustif est bien fourni ( 5 473 URL envoyées - 5 358 Dans l'index )

    "site:" indique "Environ 5 010 résultats"

    Par quel moyen puis je crawler mon site ?
     
  5. potje59

    potje59 Nouveau WRInaute

    Inscrit:
    5 Mars 2014
    Messages:
    6
    J'aime reçus:
    0
    l'augmentation sur la search console a débuté le 10/09, aucune modification n'a pourtant été faite à cette période, et mon site a plusieurs années.
     
  6. scredko

    scredko Nouveau WRInaute

    Inscrit:
    9 Février 2009
    Messages:
    38
    J'aime reçus:
    0
    Bonjour,
    Je note les mêmes symptomes sur l'un des sites que je suis :
    [​IMG]

    Plusieurs éléments supplémentaires :
    Le site gère une bonne partie d'URL en noindex (sur les URL non réécrites en duplicate avec les réécrites), en canonical (sur les fiches produits en duplicate en fonction de la catégorie où elles se trouvent), et bloquées par robots.txt (version linguistique pas prête, fonctionnalités générant des pages inutiles).
    On essaye donc vraiment de contrôler l'indexation.

    Cependant, certaines pages bloquées par le robots.txt semblent tout de même indexées (avec la description "non disponible"). Sont-elles comptabilisées dans l'indexation tout en étant exclues de la requête site: ?
    Le site est en l'état depuis plus de 2 ans, Google aurait-il changé sa méthode d'indexation ?

    Cette augmentation soudaine de l'indexation est à mettre en corrélation avec un arrêt de la progression de la visibilité (voire une légère baisse sur les dernières semaines) et une baisse relative de trafic.

    Si quelqu'un a mis le doigt sur un détail...
     
  7. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
    mon outil RM Tech ferait ça très bien, ou d'autres crawlers

    @scredko :
    si tu bloques le crawl de pages indexées qui n'auraient pas dû l'être, le problème subsiste
    je ne sais pas avec quel crawler tu as trouvé 9k pages, mais ça ne semble pas normal puisque ton sitemap n'en liste que 5,8k. ça devrait déjà te donner des indices d'URL qui ne devraient pas être crawlées. A moins qu'il s'agisse de pages crawlables non indexables, mais pourquoi en avoir autant disponibles via des liens internes follow ?

    difficile d'en dire plus sans connaitre l'URL
     
  8. scredko

    scredko Nouveau WRInaute

    Inscrit:
    9 Février 2009
    Messages:
    38
    J'aime reçus:
    0
    C'est le problème avec une solution comme Joomla sur lequel il y a eu des corrections multiples dans le temps... On se retrouve avec un historique (liens non réécrits accessibles) qu'on a tenté d'exploiter au mieux mais qui dépasse du tapis. Jusqu'à présent avec succès, le site fait parti des leaders dans son domaine. Je peux donner l'adresse mais je ne sais jamais si on a le droit.

    Pour le crawler, il s'agit d'OnCrawl.
    Le nombre de pages est plus élevé car les produits peuvent être affectés à plusieurs catégories avec une URL unique à chaque fois, mais gérés par canonical, ce que OnCrawl considèrait jusqu'à hier comme "indexable" (organisation des données revue aujourd'hui visiblement)

    Avec les nouvelles données OnCrawl, il n'y a plus que 4600 pages véritablement indexables (donc sans les canonical et bien entendu les noindex)
    Le sitemap, quant à lui, généré dynamiquement par Joomla et indépendant du module qui permet de paramétrer les noindex, comprend des pages en noindex.
    On va en profiter pour corriger ça mais ça ne m'explique toujours pas la hausse des pages indexées par Google.

    Ma question, faut-il laisser passer Google sur les pages indexées à l'époque et bloquées par robots.txt depuis pour les desindexer (ces pages sont déjà en no-index) ?
     
  9. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
    si l'objectif est de les désindexer, oui il faut arrêter d'interdire à Google de les crawler.
    à moins qu'elles soient regroupées dans un répertoire car dans ce cas il est possible de les désindexer d'un coup (via search console)
     
  10. scredko

    scredko Nouveau WRInaute

    Inscrit:
    9 Février 2009
    Messages:
    38
    J'aime reçus:
    0
    Oui c'est le cas, par exemple pour la version anglaise dans le répertoire /en
    Par contre, je ne savais pas qu'on pouvait faire de la desindexation massive depuis Search Console ! 8O
    En utilisant des regex ??
     
  11. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
  12. scredko

    scredko Nouveau WRInaute

    Inscrit:
    9 Février 2009
    Messages:
    38
    J'aime reçus:
    0
    Ok super ! Merci. Visiblement il considère qu'il s'agit d'un répertoire.
    Je vais voir si ça fonctionne.
     
  13. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
    il suffit que l'URL que tu donnes se termine par un /
     
  14. DamienM

    DamienM Nouveau WRInaute

    Inscrit:
    2 Décembre 2017
    Messages:
    2
    J'aime reçus:
    0
    Bonjour,

    Je rencontre le même problème que vous :

    T1 : j'ai 6000 pages indexées (qui correspond bien aux pages indexables du site)

    T2 : Forte augmentation dans la search console -> passage à 10 000 pages indexées sans aucune raison (vérification du nombre de pages du sites, des noindex et des pages bloquées). Sur Google, la commande site:www.monsite.com renvoie 6000 pages

    T3 : après plusieurs semaines, la commande site:www.monsite.com renvoie maintenant les 10 000 pages. Mais impossible de trouver ces 4000 pages indexées à tors dans Google
    Comportement incompréhensible :
    Page indexées dans la search console : 10 000
    site:www.monsite.com renvoie 10 000 résultats
    site:www.monsite.com inurl:http:// renvoie les 6000 pages
    site:www.monsite.com -inurl:http:// renvoie aucun résultat
    site:www.monsite.com inurl:https:// renvoie aucun résultat
    site:www.monsite.com +ajout dans l'url de &filter=0 : 6000 résultats

    vérification sans succès des pages éventuellement indexées sur des sous-domaines
    vérification sur d'éventuel problème de sécurité ou de piratage
    vérification sur plusieurs jours du crawl de google dans les logs du serveur, pas d'url indésirables crawlées

    Des idées pour voir quelles pages ont été indexées ?
     
  15. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
    la commande site: n'est pas assez fiable dans ce genre de cas

    si tu as des sous-parties de ton site situées dans des répertoires à la racine, je te conseille d'en déclarer comme nouvelles propriétés Search Console (du genre example.com/blog/). ça te permettra d'affiner l'analyse du nb de pages indexées (selon le rapport Etat de l'indexation)

    je te conseille aussi de lancer un crawler sur l'ensemble de ton site
     
  16. DamienM

    DamienM Nouveau WRInaute

    Inscrit:
    2 Décembre 2017
    Messages:
    2
    J'aime reçus:
    0
    Bonjour,
    merci pour ta réponse.

    J'ai utilisé 2 crawlers différents. J'obtiens le même résultat, 6000 pages (en comptant quelques page orphelines en plus).
    J'ai également analysé 1 mois de crawl GoogleBot, aucune anomalie détectée, que des urls connues.

    Comme tu me l'as conseillé, j'ai créé une nouvelle propriété dans la search console il y a 4 jours, mais l'état d'indexation n'est toujours pas visible.

    Ce matin, la commande site:www.monsite.com, indiquait à nouveau 6000 pages.

    La search console pourrait-elle inclure les images dans les pages indexées ?