Interprétation de l'état d'indexation de la Search console

IEDfactory

Nouveau WRInaute
Bonjour à tous et merci de vos contributions éventuelles.
Je m'occupe en autre d'un site sous Prestashop ouvert en début aout 2016 qui vend des pièces détachées de machines et qui contient 25 026 produits. La catalogue a été réalisé par un prestataire extérieure dans le cadre d'une intégration de planche de vues éclatées en rapprochement avec un catalogue fournisseur et il ne contient que 10 511 produits activés, soit 14 515 inactifs. Passons sur le pourquoi de cette situation qui est normale au regard d'éléments incontrôlables, sans rapport avec l'objet du post.
Nous avons soumis le sitemap à Google à l'ouverture du site donc en août 2016 et l'état d'indexation fait rapport de 4 crawl par mois. Voici les chiffres ci-dessous :
21/08/16 4075
28/08/16 4075
04/09/16 41486
11/09/16 39414
18/09/16 34979
25/09/16 32593
02/10/16 32418
09/10/16 32266
16/10/16 32212
23/10/16 32102
30/10/16 32161
06/11/16 32161
13/11/16 32390
20/11/16 32391
27/11/16 32388
04/12/16 32395
11/12/16 32012
18/12/16 31305
25/12/16 30935
01/01/17 24547
08/01/17 13284
15/01/17 11490
22/01/17 11450
29/01/17 11166
05/02/17 10590
12/02/17 10586
19/02/17 10585
26/02/17 10005
05/03/17 9189
Ne voyant pas d'amélioration dans les premiers temps et étant occupé à bien d'autre tâches, faisant aussi confiance au prestataire (la confiance n'exclut pas le contrôle, mais je fus laxiste sur ce coup là !), je découvris que les metas n'étaient pas remplies par le prestataire dans le cadre de l'injection et le rapprochement des fiches produits à activer avant ouverture du site. je fis donc une action corrective début janvier, puis en début février avec soumission de nouveau du sitemap auprès de Google. J'ai fait aussi à cette période le rajout de Bing Webmaster Tools.
Aujourd’hui, dans la SC de Google il y’a 15 640 URL envoyé et 2 915 dans l’index et 10 642 images et 43 dans l’index, et dans Bing 15 639 URL.
La requête site:monsite.com donne environ 9180 résultats à ce jour.
Questions :
On constate plus de 40 000 indexations pour un sitemap n'en comprenant en théorie que 10 500 URL active + 10 500 images, comment cela est possible lors de la premier soumission?
Cette indexation peut-elle être la cause d'un blacklistage de la part de Google ?
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel

IEDfactory

Nouveau WRInaute
Merci de votre retour. Ma présentation peut porter à confusion en effet. je brossais juste un état des lieux... Je sais parfaitement tout cela, et notamment la différence en l'état d'indexation et les stats de sitemap. J'ai aussi lu, entre autres depuis longtemps, vos articles et ceux de vos confrères. Je dois peut-être préciser que je suis webmaster depuis plus de 15 ans et que je me trouve confronté pour la premier fois à cette problématique.
Ma question portait sur ce décalage énorme de ma première indexation (pour des raisons inconnues à ce jour) et je voudrais avoir un point de vue extérieur sur cette problématique. Ici, j'ai eu plus d'indexation que possible !!! et non le contraire...
Donc je repose ma question :
On constate plus de 40 000 indexations pour un sitemap n'en comprenant en théorie que 10 500 URL active + 10 500 images, comment cela est possible lors de la premier soumission?
Cette indexation peut-elle être la cause d'un blacklistage de la part de Google ?
Merci beaucoup de votre retour.
Bien cordialement.
 

UsagiYojimbo

WRInaute accro
Sans doute un large volume d'url indexable que tu ne maîtrises pas (ce qu'on appelle la masse noire) : url techniques, url de tri, de recherche, etc.

Mais sans url, impossible d'être plus précis.
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
IEDfactory a dit:
Ici, j'ai eu plus d'indexation que possible !!! et non le contraire...
c'est justement ce que j'appelle la masse noire : des URL qui n'auraient pas dû être indexées (et parfois même crawlées)

IEDfactory a dit:
Donc je repose ma question :
On constate plus de 40 000 indexations pour un sitemap n'en comprenant en théorie que 10 500 URL active + 10 500 images, comment cela est possible lors de la premier soumission?
Cette indexation peut-elle être la cause d'un blacklistage de la part de Google ?
je ne crois avoir jamais vu ça dans le rapport des sitemaps. Est-ce bien là qu'il a été fourni ?

le blacklistage consiste à ne plus jamais faire apparaitre un site dans les résultats, à le désindexer totalement
ça n'a donc rien à voir
 

IEDfactory

Nouveau WRInaute
Pardon, mais il y aplus d'indexation que d'URL ! Cela n'est pas normal ?
Oui toutes les données viennent de la SC de Google....
 

IEDfactory

Nouveau WRInaute
Le rapport vient du tableau téléchargé dans la partie "Etat de l'indexation"

pour le sitemap :
Pages Web
15 640 URL envoyées
2 915 Dans l'index

Images
10 642 URL envoyées
43 Dans l'index
 

UsagiYojimbo

WRInaute accro
Relis les messages précédents : ce n'est pas parce que tu envoies un nombre fini d'url à indexer via le sitemap que Google n'en trouve pas d'autres. Mais il faut une url pour en dire plus...
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
donc c'est bien ce que j'écris depuis le début : il ne faut pas mélanger les 2 rapports !
il n'y a pas + d'URL indexées que d'URL fournies dans le sitemap
et pour le reste, c'est la masse noire
 

IEDfactory

Nouveau WRInaute
Je me permet d'insister ou de vous demander une explication.
Si on regarde les stats de la fin (mois de mars 2017) cela est cohérent entre le sitemap fourni et l'indexation, mais si on regarde les stats du 04/09/2016 on est dans une incohérence complète.
La masse noire correspond à la différence des URL crawlé et celle présente dans le sitemap, non ?
Pourtant c'est grosso modo le m^me sitemap qui a été envoyé entre les deux dates...
Merci de votre retour...
 

UsagiYojimbo

WRInaute accro
Sauf que des ajustements techniques menés sur le site ont pu déclencher l'indexation de pages que tu n'envois pas via le sitemap. Mais une fois de plus, sans url...
 

IEDfactory

Nouveau WRInaute
OK j'entends bien cela, le moteur peut référencer des pages qui ne sont pas dans le sitemap et non bloquées par le robot.txt, mais comment peut-on avoir plus de pages référencées que d'existantes ?
 

UsagiYojimbo

WRInaute accro
Qu'en sais-tu ? As tu lancé un crawl de ton site (ScreamingFrog, Xenu, MyRankingMetrics) de manière à vérifier que le nombre de pages qui sont accessibles au moteur correspond stricto sensu au nombre que tu envoies dans les sitemap ? De mon expérience, il y a souvent un delta, plus ou moins important.
 

IEDfactory

Nouveau WRInaute
OK je vais écouter ton conseil, mais delà de plus du double il y a bien eu un problème et je voudrais l'identifier... Merci de ce retour.
 

IEDfactory

Nouveau WRInaute
Je remercie les deux contributeurs qui sont intervenus, mais visiblement cela ne donne pas de réponse à mon interrogation sur l'indexation "délirante de mon site sur Google SC (plus de double d'URL existantes... Si quelqu'un à un avis une piste ou autre je suis preneur...
Merci d'avance.
 

UsagiYojimbo

WRInaute accro
Tu as lancé un crawl de ton site ? Et tu trouves le même nombre d'url lors du crawl que le nombre que tu envois dans tes sitemaps ?
 

IEDfactory

Nouveau WRInaute
Merci de continuer le fil même un dimanche ! Il me semble que vous ne comprenez pas le problème, mais c'est moi qui doit mal l'expliquer. Aujourd'hui les résultats sont cohérents entre le nombre d'URL et d'images proposé dans le sitemap et l'indexation, mais au début c'était complétement délirant plus de 40 000 URL. Je n'avais pas fait de contrôle à l'époque, car j'avais la tête dans le guidon... Je suis en attente et en observation en ce moment pour l'amélioration de mon positionnement, mais je constate que quelques semaines (8) après l'indexation des deux dernières soumissions les chiffres sont cohérents. De plus Bing a référencé et positionné très vite les pages, ce qui n'est toujours pas le cas de Google. J'ai un outil de positionnement Adwancd Web Ranking que je lance toutes les semaines pour voir l'évolution, et c'est pas mieux du coté de Google et bon du côté de Bing.
Donc ma question est bien d'essayer de comprendre ou d'avoir des pistes de ce qui a pu se passer au début ? Et si cela n'a pas pénalisé mon site ?
 

Discussions similaires

Haut