Google ressort des pages anciennes de plus d'un an et mélange les sous domaines

WRInaute passionné
Bonjour,

Google ressort dans les serps des pages très anciennes de plus d'un an qui ont été renouvelées une centaine de fois depuis, mais plus grave, il mélange les sous-domaines auxquels ces pages appartenaient.

J'ai déjà soulevé ce problème dans un port récent https://www.webrankinfo.com/forum/googlebot-confusion-des-sous-domaines-ser ... 66038.html sans avoir remarqué l'ancienneté de ces pages toutes erronées (lien 404 a partir des serps).

Vu que les erreurs se comptent par million ... qu'avec certitude ces pages n'existent plus depuis un an sur le serveur, après avoir cherché des erreurs serveurs avec l'aide des techniciens d'OVH sans avoir trouvé, je me demande ce qui a pu se produire chez Google et si je suis le seul?

Le phénomène est apparu semble-t-il vers le 23 Juin, juste avant la date de sortie de Penguin 4. Google a réutilisé des vieux data ou étaient stockées ces anciennes pages, mais en plus, il a mélangé les sous domaines.

Je suis sûr de l'ancienneté de ces pages dans le cache de Google pour 2 raisons :
- il manque le code adsense thématique en haut de page créé la 1ere fois en Aout 2012 et toujours là depuis
- le footer indique l'année de copyright 1996-2012
ex de d'url présente dans les serps :
-http://41-loir-et-cher.annuairefrancais.fr/institut-beaute/boussy-saint-antoine.html (vieille page qui appartient en réalité au sous domaine 91 essonne)
-http://91-essonne.annuairefrancais.fr/institut-beaute/boussy-saint-antoine.html

Vu que le site est en fichier statique, aucune erreur n'est possible hormis le serveur http, mais aucune trace dans les logs.
Les pages erronées ont été indexées a partir d'une autre source, très ancienne, probablement dans les data de Google ou sauvegarde chez eux.

Le bot passe en permanence sur toutes pages au moins 1 fois par mois, l'indexation est complète (99% des pages sont indexées), donc je ne sais pas dutout d'ou sortent ces vieilles pages? Et pourquoi ces erreurs de sous domaines ?


Avez-vous constaté une résurgence d'anciennes pages dans vos sites (si vous avez modifiées celles-ci depuis 1 an et si vous avez fait attention a ce qu'il y a dans les caches) ?
Avez-vous constaté des erreurs de sous domaines si vous en avez?

Merci aussi de donner votre opinion, je suis ... désapointé.

J'ai expliqué le soucis dans une demande de reexamen, je ne sais pas quoi faire d'autre.
Pensez-vous que ce soit la source d'un négative SEO mais alors comment pourraient-ils intervenir sur les data de Google?
 
WRInaute discret
J'ai aussi constaté que de vieilles pages réapparaissaient mais dans les erreurs 404 du WMT.
Ces pages datent de plus de 18 mois, moment auquel le site a été refondu.
 
WRInaute passionné
Haaa, enfin un collègue, je ne suis plus seul au monde avec mes soucis du BOT de google.

As-tu une idée de la date de cette ré-apparition? ou la date du cache de Google ?

Je viens de Passer 5 techniciens à nouveau d'OVH (5x20 mnt) ... je n'ai que des erreurs 404 de crawl de Google qui ne sonde plus les sous-domaines ou les attributs peut etre a une unique adresse.

Ma zone DNS est peut être en cause et Google a peut-être changé sa méthode de reconnaissance.
J'ai en effet une étoile dans ma zone dns (*) et la zone A sans le www qui avait sauté.

Du coup, il est possible que :
- soit google ne reconnaissant pas le nom de domaine sans le www ne prenne plus en compte les sous domaines (je doute car a ce compte là il n'irait piocher que des pages dans la partie www)
- soit l'étoile dans la zone DNS pose un problème a Google qui ne reconnais plus les sous-domaines.

Mais j'ai un gros doute, car pour mélanger les sous domaines, pour y accéder sur le serveur, il faut une requete sur un nom de sous domaine ... genre, pour accéder au répertoire du departement 41, il faut obligatoirement ouvrir une requete par 41-loir-et-cher.annuairefrancais.fr. Sinon, avec juste l'adresse ip, on peut arriver sur le répertoire France seulement.

Vu que la page du département 41 est une très vieille page du département 91 dans l'exemple ci-dessus, j'ai bien peur que Google a eut un gros bug dans ses data ...

Je vais mettre clairement le nom des sous domaines dans ma zone DNS et voir si Google arrive a nouveau a crawler le site, car pour le moment, 100% des tentatives de Googlebot sont en 404 ....
Je vous tiens au courant de cette bizarrerie , si quelq'un a une idée .... merci d'avance
 
WRInaute passionné
Bon, ca recommence, malgré un serveur dédié tout neuf, reconfiguré manuellement, aucun fichier transféré et tout régénéré proprement ( c'étais déjà la cas mais bon). Google ressort des backup vieux d'un an et en mélangeant les sous domaines ... enore 730 erreur aujourd'hui sur le seul département du 24, avec des villes qui n'existent pas dans celui-ci. Côté serveur et navigateur, il est certain a 100% qu'il n'y a aucune erreur, et aucun bug d'Apache bien sûr, ca se saurait.

Côté DNS, aucun soucis non plus, toutes les sous-domaines sont nommés avec un enregistrement A et IP qui est unique de toute manière.

heureusement, cela ne touche pas le trafic qui reste stable, mais le taux de pages d'erreur monte en fleche, et le plus grave c'est qu'elles sont dans les serps. 5 millions de liens 404 dans les serps, ca fait désordre ...

Mes explications dans ma demande de réexamen n'ont pas été lu, j'ai donc reçu une réponse type que mon site n'est pas sanctionné (merci ...).

Dans le forum Google, aucune réponse non plus depuis plusieurs jours... Si une réponse entre-temps d'un webmaster sympa ...
qui pense aussi a un probleme de stockage des urls et data dans les backups de Google ...
https://productforums.google.com/forum/#!topic/webmaster-fr/cb0-WTwKY6g

Quelqu'un a une idée, un contact chez Google, un conseil? je sais plus quoi faire...

PS: Nouvel exemple, l'url 24-dordogne.annuairefrancais.fr/artiste-spectacle/trelaze.html (a coller dans la barre de recherche). En regardant le cache de cette page qui date du 5 juillet 2013, la page en elle-même est un contenu du mois d'Aout 2012, qui a changé plus de 20 fois entre-temps...
 
Discussions similaires
Haut