Chute du nombre de "pages non-sélectionnées", kesaquo ?

WRInaute passionné
Bonjour à tous,

Dans GWT > Etat de santé > Etat de l'indexation, on a un graphique représentant le nombre d'URLs indexées, non-sélectionnées et bloquées par le robots.txt

Rien d'extraordinaire, ci ce n'est que ma courbe verte des pages non-sélectionnées est passées d'environ 72 050 (chiffre stable depuis des lustres, voir des lampadaires...) à 21 120 !

J'ai vérifié mes sitemaps dans lesquels j'ai toutes les pages importantes de mon site (URLs canoniques) et le nombre d'URL indéxées n'a pas bougé.

Est-ce bon ou mauvais signe ?
72 000 => 21 000 ça me parait beaucoup, comment pourrais-je savoir quelles sont ces pages ?

Merci
 
WRInaute occasionnel
Yo,

Tu n'es pas le seul j'ai découvert ça aussi il y a plus d'une semaine. J'ai aussi vérifié l'indexation qui n'a pas bougé non plus...
Peut être que l'on aura d'autres infos d'ici là.
 
WRInaute passionné
J'ai cherché des infos sur Google et il semblerait que ces "pages non-sélectionnées" englobent les URLs qui font une 301 vers d'autres URLs.

Dans mon cas il pourrait s'agir des URLs non rewritées qui font une 301 vers les URLs rewritées, mais ça fait au moins 2 ans que c'est en place...
 
WRInaute passionné
C'est juste une supposition, car ça fait trèèès longtemps que Google a bien remplacé les anciennes URLs par les rewritées,mais je me dis qu'il les gardait peut-être en mémoire et qu'il a décidé de faire le ménage...

En tout cas il vaut mieux une chute soudaine de cette courbe plutôt que l'inverse
 
WRInaute discret
Vous avez peut-être fait des modifications récemment ? Correction des erreurs d'exploration ou mise à jour du contenu ? etc... etc...
 
Olivier Duffez (admin)
Membre du personnel
c'est confirmé, les pages non sélectionnées disparaissent de GWT ! Voici mes explications...

Google supprime la courbe Pages non sélectionnées de Google Webmaster Tools
Fin juillet 2012, Google avait ajouté de nouvelles fonctionnalités dans les comptes GWT permettant d’analyser le crawl et l’indexation d’un site. Une partie de ces informations n’est désormais plus disponible…

gwt-pages-non-selectionnees.jpg

Exemple de courbes de l’état d’indexation dans GWT, incluant les pages non sélectionnées

La rubrique Etat de l’indexation a eu le mérite de faire prendre conscience à de nombreux webmasters que leur site génère trop d’URL. Parfois, on se rend compte que le site crée un très grand nombre d’URL inutiles pour le référencement mais pourtant crawlées (voire indexées) par Google. Comme je l’explique en détails en formation, cette « masse noire » crée de nombreux problèmes pour le référencement.

Regardez par exemple ce « petit » site que j’ai audité récemment… Depuis que je l’ai aidé à faire disparaître sa « masse noire » (55 millions d’URL ça commence à faire pas mal), le site cartonne !

Cela dit, cette notion concerne tous les sites, y compris les petits !

gwt-pages-non-selectionnees-masse-noire.jpg

Illustration du phénomène de la masse noire : explosion des pages non sélectionnées

Parmi les informations fournies dans cette rubrique GWT, on trouvait l’intitulé « Pages non sélectionnées ». Ce terme n’était pas assez clair pour les webmasters, c’est en tout cas la raison évoquée par Google pour expliquer sa décision de ne plus fournir cette information. Pour mémoire, voici à quoi cela correspondait :
John Muller de Google a déclaré :

this was removed on purpose since it was causing more confusion than actually helping webmasters with their sites.

Concrètement, je constate que Google supprime de plus en plus de données et d’informations pourtant utiles aux référenceurs :
Voici les informations qui restent disponibles dans l’Etat d’indexation :
  • Nombre total de pages déjà explorées auparavant : nombre total d’URL que Google est parvenu à explorer sur votre site. Toutes les URL explorées ne sont pas indexées. Google peut en découvrir quelques-unes par d’autres moyens, en utilisant les liens entrants provenant d’autres sites, par exemple. Ce nombre est appelé à augmenter au fur et à mesure que de nouvelles pages sont ajoutées à votre site (il ne peut pas diminuer).
  • Nombre total de pages indexées : nombre total d’URL actuellement présentes dans l’index de Google. Ces URL peuvent apparaître dans les résultats de recherche, aux côtés d’autres URL que Google peut découvrir par d’autres moyens. Ce nombre peut augmenter ou diminuer au fur et à mesure que de nouvelles pages sont ajoutées à votre site et indexées, et que les anciennes sont supprimées. Le nombre d’URL indexées est presque toujours nettement inférieur au nombre d’URL explorées, car il n’inclut pas les URL en double, les URL non canoniques, les URL peu utiles ni celles qui contiennent une balise meta noindex.
  • Pages bloquées par le fichier robots.txt : il s’agit du nombre total d’URL que Google ne peut pas explorer, car elles sont bloquées par votre fichier robots.txt.
 
Discussions similaires
Haut