Apres plantage cause robot.txt, Google reste figé, comment résoudre ?

kasperle · 10 Juillet 2015

Bonjour à tous,

Alors même si j'ai beaucoup de patience…. je commence à me poser des questions. Rien ne bouge depuis 3 semaines, même si le problème en principe est résolu.

Le cas est le suivant:
- Modification du CMS du site et donc Modification totale des urls du site
- Redirections 301 page par page pour toutes les pages (sauf celles qui n'existent plus et qui vont vers des catégories ou à l'accueil)
- Mon développeur met en ligne le site mais il se plante car il laisse le robots.txt de la version en dev (User-Agent: * Disallow: /)

D'après webmaster tools, si je vais dans les statistiques d'exploration le soir même ou le nouveau site est lancé Google s'y jette comme un fou et explore 13.000 pages, puis forcement se casse la gueule avec le robots.txt. Il ne suit donc pas les rédirections 301 et met les anciennes urls avec la mention "La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site" puis par contre pour les nouvelles urls le robots txt ne le derrange pas (va comprendre avec un ser-Agent: * Disallow: / :?: ) et il en indexe pas mal (tout ça en une nuit, arggg du coup là il a été rapide !)

Enfin je me rends compte du problème et je corrige mon robots.txt (et je ne lui interdit que ce qui doit être interdit). Mais rien à faire après 3 semaines le problème persiste de façon importante (95% des pages).
J'essaye de booster de temps en temps certains urls via "explorer comme google" les anciennes urls, car je voudrais qu'il aille les revoir et qu'il les remplace par les nouvelles mais je peux pas en faire 3000 !!!

Quelqu'un sait combien de temps Google révise son index afin de corriger les mentions robots.txt erronées ??? ou il laisse cette information erronée définitivement sur son index ?

Je suis perplexe du fait qu'il ne corrige pas tout seul, comment je fais pour résoudre ce problème. Des idées ?
Je suis patiente, mais je voudrais prévoir un peu l'avenir et faire quelque chose, si je peux ?

Note: Le site comporte des liens externes sur d'autres sites, donc GG devrait suivre ces liens et corriger via les 301… mais apparemment il ne le fait pas, et comment va-t-il suivre toutes les urls d'un site qui n'existe plus (l'ancien), ne serait-il pas plus simple qu'il suive les liens qui sont déjà dans son index pour corriger son index ? Le fait-il ? Comme vous verrez je me pose plein de questions en ce moment :mrgreen:
Je suis même tentée par mettre le sitemap de l'ancien site, mais est-ce que ça changera quelque chose ?

Merci de votre aide, je suis un peu perdue là sur le coup 8O

Kasperle

Audiofeeline · 11 Juillet 2015

J'ai déjà eu un cas comme ça. En autorisant simple l'indexation dans robots.txt c'était reparti.

Code:

User-agent: *
Allow: /

A priori s'il n'y a pas de balise NOINDEX sur le site en lui-même, l'indexation devrait être rapide. Si tu as la possibilité de mettre un sitemap à jour ne t'en prive pas.

kasperle · 15 Juillet 2015

Audiofeeline a dit:
J'ai déjà eu un cas comme ça. En autorisant simple l'indexation dans robots.txt c'était reparti.

Code:

User-agent: * Allow: /

A priori s'il n'y a pas de balise NOINDEX sur le site en lui-même, l'indexation devrait être rapide. Si tu as la possibilité de mettre un sitemap à jour ne t'en prive pas.

Je ne peux pas lui mettre un Allow All, car c'est un Prestashop, et si je lui laisse tout indexer, ça va être terrible :mrgreen:

Par contre c'est peut-être pas idiot de lui mettre des Allow sur certains dossiers,
ça revient presque à faire le sitemap dans le robots.txt dis-donc !!!

Je peux toujours tester, mais je continue à trouver bizarre qu'il reste un mois bloqué à cause d'un ancien robots.txt, et qu'il n'aille pas réparer, nettoyer son index, puisque les portes lui sont ouvertes depuis un mois .

Si quelqu'un à d'autres idées, elles sont bienvenues.

Utiliser un allow sur certains dossiers, j'imagine que cela n'équivaut pas à interdire les autres. J'ai des doutes maintenant de comment Google lit les robots.txt et à quelle fréquence il met à jour son index ?

Merci. Kasperle

Audiofeeline · 15 Juillet 2015

Je te conseille tout de même de tout autoriser et quand tu vois que ça repart tu remets ton robots.txt classique. Essaie, tu ne risque pas grand chose de toute façon...

aproximité · 15 Juillet 2015

Bonjour,
J'ai eu il y a quelques mois à peu près le même problème suite à une mise à jour (remise en ligne de plusieurs centaines de pages en laissant le noindex).
Il n'a fallu que quelques jours pour que GG tienne compte de la correction et re indexe toutes les pages.
Alors dans ton cas, 3 semaines cela me semble bien long...
Le problème ne viendrait-il pas de la modification des urls et des 301 ?
Bon courage

kasperle · 9 Avril 2021

Problème résolu en 2015 ;-)