Augmentation pages indexées

potje59 · 23 Octobre 2017

Bonjour, j'ai depuis 1 mois environ une augmentation de nombre total de pages indexées, je suis passé de 5782 à 8275 sur ma search console.

Il n'y a aucune raison concrète provenant du site pour justifier une telle augmentation.

Lorsque que je fais "site:www" je ne vois pas cette augmentation, ce qui a tendance à me rassurer.

Avez vous un cas similaire, serait-ce une incidence de mobile first ?

Merci d'avance de vos réponses ! :? :wink:

WebRankInfo · 24 Octobre 2017

aucun rapport avec le mobile first (à moins que ton site génère d'autres URL quand on vient avec un robot mobile)
as-tu fourni à Google un sitemap exhaustif de toutes tes URL ? dans ce cas, combien de pages sont indexées selon Google ?
as-tu crawlé ton site pour voir si tu trouves autant de pages que prévu ?

UsagiYojimbo · 24 Octobre 2017

Je commente parce que je note un truc similaire chez un de mes clients depuis quelques jours sans qu'il y ait d'explication à donner (j'ai pointé certains bugs sur le site, mais rien qui n'explique une explosion de pages indexées : + 40 000 en 2 semaines).

potje59 · 24 Octobre 2017

Un sitemap exhaustif est bien fourni ( 5 473 URL envoyées - 5 358 Dans l'index )

"site:" indique "Environ 5 010 résultats"

Par quel moyen puis je crawler mon site ?

potje59 · 24 Octobre 2017

l'augmentation sur la search console a débuté le 10/09, aucune modification n'a pourtant été faite à cette période, et mon site a plusieurs années.

scredko · 23 Novembre 2017

Bonjour,
Je note les mêmes symptomes sur l'un des sites que je suis :

Plusieurs éléments supplémentaires :
Le site gère une bonne partie d'URL en noindex (sur les URL non réécrites en duplicate avec les réécrites), en canonical (sur les fiches produits en duplicate en fonction de la catégorie où elles se trouvent), et bloquées par robots.txt (version linguistique pas prête, fonctionnalités générant des pages inutiles).
On essaye donc vraiment de contrôler l'indexation.

Cependant, certaines pages bloquées par le robots.txt semblent tout de même indexées (avec la description "non disponible"). Sont-elles comptabilisées dans l'indexation tout en étant exclues de la requête site: ?
Le site est en l'état depuis plus de 2 ans, Google aurait-il changé sa méthode d'indexation ?

Cette augmentation soudaine de l'indexation est à mettre en corrélation avec un arrêt de la progression de la visibilité (voire une légère baisse sur les dernières semaines) et une baisse relative de trafic.

Si quelqu'un a mis le doigt sur un détail...

WebRankInfo · 24 Novembre 2017

potje59 a dit:
Par quel moyen puis je crawler mon site ?

mon outil RM Tech ferait ça très bien, ou d'autres crawlers

@scredko :
si tu bloques le crawl de pages indexées qui n'auraient pas dû l'être, le problème subsiste
je ne sais pas avec quel crawler tu as trouvé 9k pages, mais ça ne semble pas normal puisque ton sitemap n'en liste que 5,8k. ça devrait déjà te donner des indices d'URL qui ne devraient pas être crawlées. A moins qu'il s'agisse de pages crawlables non indexables, mais pourquoi en avoir autant disponibles via des liens internes follow ?

difficile d'en dire plus sans connaitre l'URL

scredko · 24 Novembre 2017

C'est le problème avec une solution comme Joomla sur lequel il y a eu des corrections multiples dans le temps... On se retrouve avec un historique (liens non réécrits accessibles) qu'on a tenté d'exploiter au mieux mais qui dépasse du tapis. Jusqu'à présent avec succès, le site fait parti des leaders dans son domaine. Je peux donner l'adresse mais je ne sais jamais si on a le droit.

Pour le crawler, il s'agit d'OnCrawl.
Le nombre de pages est plus élevé car les produits peuvent être affectés à plusieurs catégories avec une URL unique à chaque fois, mais gérés par canonical, ce que OnCrawl considèrait jusqu'à hier comme "indexable" (organisation des données revue aujourd'hui visiblement)

Avec les nouvelles données OnCrawl, il n'y a plus que 4600 pages véritablement indexables (donc sans les canonical et bien entendu les noindex)
Le sitemap, quant à lui, généré dynamiquement par Joomla et indépendant du module qui permet de paramétrer les noindex, comprend des pages en noindex.
On va en profiter pour corriger ça mais ça ne m'explique toujours pas la hausse des pages indexées par Google.

Ma question, faut-il laisser passer Google sur les pages indexées à l'époque et bloquées par robots.txt depuis pour les desindexer (ces pages sont déjà en no-index) ?

WebRankInfo · 24 Novembre 2017

scredko a dit:
Ma question, faut-il laisser passer Google sur les pages indexées à l'époque et bloquées par robots.txt depuis pour les desindexer (ces pages sont déjà en no-index) ?

si l'objectif est de les désindexer, oui il faut arrêter d'interdire à Google de les crawler.
à moins qu'elles soient regroupées dans un répertoire car dans ce cas il est possible de les désindexer d'un coup (via search console)

scredko · 24 Novembre 2017

WebRankInfo a dit:
si l'objectif est de les désindexer, oui il faut arrêter d'interdire à Google de les crawler.
à moins qu'elles soient regroupées dans un répertoire car dans ce cas il est possible de les désindexer d'un coup (via search console)

Oui c'est le cas, par exemple pour la version anglaise dans le répertoire /en
Par contre, je ne savais pas qu'on pouvait faire de la desindexation massive depuis Search Console ! 8O
En utilisant des regex ??

WebRankInfo · 24 Novembre 2017

si tu veux désindexer toutes les pages d'un répertoire, il suffit d'indiquer ce répertoire dans l'outil de suppression de search console

scredko · 24 Novembre 2017

Ok super ! Merci. Visiblement il considère qu'il s'agit d'un répertoire.
Je vais voir si ça fonctionne.

WebRankInfo · 24 Novembre 2017

il suffit que l'URL que tu donnes se termine par un /

DamienM · 2 Décembre 2017

Bonjour,

Je rencontre le même problème que vous :

T1 : j'ai 6000 pages indexées (qui correspond bien aux pages indexables du site)

T2 : Forte augmentation dans la search console -> passage à 10 000 pages indexées sans aucune raison (vérification du nombre de pages du sites, des noindex et des pages bloquées). Sur Google, la commande site:www.monsite.com renvoie 6000 pages

T3 : après plusieurs semaines, la commande site:www.monsite.com renvoie maintenant les 10 000 pages. Mais impossible de trouver ces 4000 pages indexées à tors dans Google
Comportement incompréhensible :
Page indexées dans la search console : 10 000
site:www.monsite.com renvoie 10 000 résultats
site:www.monsite.com inurl:http:// renvoie les 6000 pages
site:www.monsite.com -inurl:http:// renvoie aucun résultat
site:www.monsite.com inurl:https:// renvoie aucun résultat
site:www.monsite.com +ajout dans l'url de &filter=0 : 6000 résultats

vérification sans succès des pages éventuellement indexées sur des sous-domaines
vérification sur d'éventuel problème de sécurité ou de piratage
vérification sur plusieurs jours du crawl de google dans les logs du serveur, pas d'url indésirables crawlées

Des idées pour voir quelles pages ont été indexées ?

WebRankInfo · 2 Décembre 2017

la commande site: n'est pas assez fiable dans ce genre de cas

si tu as des sous-parties de ton site situées dans des répertoires à la racine, je te conseille d'en déclarer comme nouvelles propriétés Search Console (du genre example.com/blog/). ça te permettra d'affiner l'analyse du nb de pages indexées (selon le rapport Etat de l'indexation)

je te conseille aussi de lancer un crawler sur l'ensemble de ton site

DamienM · 6 Décembre 2017

Bonjour,
merci pour ta réponse.

J'ai utilisé 2 crawlers différents. J'obtiens le même résultat, 6000 pages (en comptant quelques pages orphelines en plus).
J'ai également analysé 1 mois de crawl GoogleBot, aucune anomalie détectée, que des urls connues.

Comme tu me l'as conseillé, j'ai créé une nouvelle propriété dans la search console il y a 4 jours, mais l'état d'indexation n'est toujours pas visible.

Ce matin, la commande site:www.monsite.com, indiquait à nouveau 6000 pages.

La search console pourrait-elle inclure les images dans les pages indexées ?