Search Console Erreurs d'exploration rapport Couverture

Nouveau WRInaute
Bonjour à tous les Webrankeurs et Webrankeuses,

j'ai eu, suite à un problème de génération automatique du fichier Sitemap (XML), 940 URL listées comme ayant eu une erreur d'exploration.
940 URL ont été supprimées de l'index Google sur un ensemble de 5000 URLs au total.
Erreurs détectées "URL envoyée contient une erreur d'exploration" par Search Console le 06/04/2020

Je précise que ces 940 URLs étaient toutes déjà indexées depuis de nombreuses années, et ne présentaient aucun problème.
Parmi ces 940 URLs, il n'y avait aucune redirection 301, erreur 404 ... etc
Testées avec l'outil cité plus bas, et testées dans l'index google avec la formule

nom du site : "url du site"

Après avoir vérifié que le fichier Sitemap était de nouveau opérationnel et complet, j'ai lancé un ping et ai validé les erreurs via Search Console.
Au bout de quelques jours, toujours le même nombres d'URLs en erreur.

Au 14/04/2020, Search Console trouvait toujours 328 URLs avec erreur d'exploration.
En fin de journée il ne comptait plus que 323.

Au 15/04/2020, Search Console trouve de nouveau 628 URLs avec "URL envoyée contient une erreur d'exploration"
J'ai testé quelques URL avec outil d'analyse HTTP .
Dans ce lot, les URLs présentant une redirection 301 sont d'après search console désindexée mais sont bien indexée dans google.
Exemple pour cette URL > https://www.dpauto.fr/electrovanne-turbo-nv200-1-5-dci,fr,4,8200201099_20.cfm

Je signale que sur le site, il "est possible" (en tout cas ça l'était jusqu'à ce que la génération du sitemap merde) de mofifier l'espace personnalisble d'une URL.
Pour reprendre cet exemple :
https://www.dpauto.fr/electrovanne-turbo-nv200-1-5-dci,fr,4,8200201099_20.cfm
=
https://www.dpauto.fr/je-mets-ce-que-je-veux,fr,4,8200201099_20.cfm
=
https://www.dpauto.fr/,fr,4,8200201099_20.cfm

Plusieurs questions se posent :

1- Comment est-il possible que Google ait pu désindexé des URLs sans qu'il y ait eu d'instructions dans le fichier Robot.txt ni dans le fichier Sitemap ? Le site comporte plus de 5000 URLs

2- Rencontrez vous en ce moment des dysfonctionnements liés uniquement à Search Console ?

3- Quelqu'un a-t-il déjà rencontré ce problème ?

Merci pour les éclaircissements qui pourront être apportés.

A bientôt
 
Olivier Duffez (admin)
Membre du personnel
Bienvenue sur WebRankInfo !

1- le fichier robots.txt n'a pas de rapport avec l'indexation, seulement avec le crawl.
idem pour le sitemap
Google peut désindexer une URL si en la crawlant il constate qu'elle ne remplit pas les conditions techniques pour être indexée, ou des conditions de qualité (hors-sujet ici)

2- non je ne crois pas

3- il faudrait en savoir plus pour répondre. En lisant, j'ai l'impression que dans les URL indiquées en erreur, certaines sont en 301. C'est donc logique que Google l'indique en erreur.

Je n'ai pas compris comment a été généré le sitemap ?
 
Nouveau WRInaute
Merci pour la réponse :)

1 - Pourtant cette désindexation intervient avec le problème de génération automatique du fichier sitemap XML (pour répondre à "comment a été généré le sitemap ?").
La génération a lieu tous les jours à 4h du matin.

Pour information une partie de ces 940 URLs ont été indexées de nouveau, certaines ayant perdues leur place en première page.
Exemple cette URL était en première page (Mobile et Bureau) avec la requête "Vanne EGR Polo 1.6 TDI 90" avant le problème, et est passée en 2 éme page suite à la nouvelle indexation
https://www.dpauto.fr/vanne-egr-polo-1-6-tdi-90-105-75-vw-rg-8-6r-6c-joints,fr,4,03L131512AN_9.cfm

Est-il commun qu'il faille 6 jours pour que les corrections interviennent ?
Je sais qu'avec Search Console, il faut savoir être patient, mais là, je commençais à trouver le temps un peu long (surtout en cette période ...)

2 - Ok

3 - Oui effectivement certaines sont en 301, mais d'autres ne le sont pas.
Exemple cette url est accessible sans aucune redirection, mais présente une erreur d'exploration.
> https://www.dpauto.fr/sonde-fap-hyu...tucson-santa-fe-accent-getz-crdi,fr,3,376.cfm

Cette même URL obtient un score de 82 dans le Page Speed Insight
 
Olivier Duffez (admin)
Membre du personnel
1- en fait je veux savoir comment est généré le sitemap, par quel outil ou plugin ou crawler. As-tu vérifié de ton côté que 100% des URL du sitemap sont bien en code 200, crawlables, et même indexables ? (mon outil RM Sitemaps fait exactement ce job).

3- "cette url est accessible sans aucune redirection, mais présente une erreur d'exploration"
ça serait plus simple pour t'aider de nous dire quelle est l'erreur rencontrée par Google.
n'as-tu pas un pb d'encodage de la virgule dans ton fichier sitemap ?
 
Nouveau WRInaute
1- Je ne suis pas propriétaire du site et n'ai pas cette information. Je vais demander, mais j'attends déjà des réponses de leur part depuis Vendredi dernier ... Je vais mettre un coup de boost

3- Justement Google ne me donne pas plus de précisions sur cette erreur.
Ne pouvant pas répondre sur le l'encodage je vais également demander à ce que soit vérifié.
 
Nouveau WRInaute
Re bonjour,

désolé pour la réponse tardive, mais difficile d'obtenir des réponses

1 - Voici la réponse qui m'a été faite > Le sitemap est généré par le code natif de Powerboutique et compilé dans un fichier XML.

3 - d'après Powerboutique, il n'y a pas de problème d'encodage de la virgule. Cependant ils ne m'ont pas dit comment ils avaient vérifié, et m'ont précisé, que si il y avait eu un problème de ce type, d'autres clients se seraient manifestés.
La méthode de vérification peut être discutable ....

J'avais exporté le fichier diagnostic de search console lorsque j'ai eu ces 940 URLs avec erreur d'exploration et désindexées.

Voici l'analyse de ce fichier effectuée par Powerboutique:
"...
- 1056 URLS non réécrites, qui n'auraient pas dû être indexées par Google ;
- 392 URLS de l'ancienne version mobile, qui n'ont plus lieu d'être, vu que vous êtes en responsive.
- 74 URLS système, qui ne doivent pas être indexées.
- 2 URLS d'ajout direct au panier (que nous appelons com_act), qui elles non plus ne doivent pas être indexées.
- 128 URLS incorrectes (qui n'ont pas la partie terminale .cfm et qui amènent à une erreur 404), celles-ci sont donc retirées par Google. Je pense qu'il a dû tronquer la virgule pour celles-ci.
..."

Search console, me donnait 323 erreurs d'exploration au 16/04, puis est remonté à 687 erreurs le 17/04 pour être le 20/04 à 98 erreurs.
Pour search console il s'agit d'un problème lié au Sitemap, cependant ces URLs figurent dans le sitemap et sont bien indexées.
Je n'arrive pas à m'expliquer ces chiffres en dents de scie, mis à part un bug de search console.

Pour reprendre l'exemple de l'URL
https://www.dpauto.fr/vanne-egr-polo-1-6-tdi-90-105-75-vw-rg-8-6r-6c-joints,fr,4,03L131512AN_9.cfm

Cette URL est de nouveau en première page avec la requête "Vanne EGR Polo 1.6 TDI 90"
J'effectue les contrôles de position en navigation privée (avec fermeture de la fenêtre du navigateur pour chaque recherche) et avec l'outil de prévisualisation Adwords.

Cette désindexation reste un mystère. Je confirme qu'il y a bien eu désindexation car :
- lorsque il y avait un contrôle sur le web, les urls n'y figuraient pas
- soumise à search console, ces URLs étaient détectées comme n'étant pas indexées.

Si vous avez des pistes, je suis preneur :)
 
Olivier Duffez (admin)
Membre du personnel
désolé mais ça devient trop compliqué de répondre, ça nécessite un audit du site et de search console
 
Discussions similaires
Haut