Paramètres d'URLs Google Webmaster Tools

WRInaute passionné
Bonjour à tous,

Ma question est plutôt simple mais étant donné la gravité potentielle d'un changement, je préfère m'en assurer ici avant de changer quoi que ce soit.

Dans GWT, on me liste des paramètres d'URLs (pagination, tri, product_id, manufacturer_id, osCsid...).

Je connais tous ces paramètres, ils apparaissaient dans les URLs non réécrites OR depuis la mise en place de l'URL rewriting, ces paramètres n'apparaissent plus dans les URLs (mais ils sont utilisés dans les URLs non réécrites)

Question : Est-ce que je peux dire à Googlebot de ne plus explorer les URLs contenant ces paramètres d'anciennes URLs vu qu'ils n'apparaissent plus dans mes URLs réécrites sans risquer de désindexer mes pages ?
 
Olivier Duffez (admin)
Membre du personnel
non, il vaut mieux mettre en place les bonnes redirections 301
si dans plusieurs semaines Google t'indique encore qu'il crawle ces URL alors faudra analyser plus en détails le pb.
 
WRInaute passionné
Merci pour votre réponse,

Cela fait plusieurs mois que les URLs sont réécrites et que les paramètres d'URLs "n'existent" plus, et les redirections 301 fonctionnent bien. Ce n'est pas normal vous pensez que Googlebot continue de tester les anciennes adresses qu'il connait depuis plusieurs années ?

J'avais mis ces paramètres sur "Laisse Googlebot décider" et puis en revérifiant mes paramètres GWT je me suis dit qu'il n'avait plus besoin de tester ces URLs puisque les paramètres ne sont plus dans les URLs réécrites mais au fond, ils existent toujours en "vrai" puisque ce sont des paramètres GET que l'on récupère en PHP.

C'est un peu flou dans mon esprit la frontière entre vrai URL et URL réécrite. Googlebot connait-il uniquement les URLs réécrites ou est-ce qu'il connait aussi leur "version" non réécrite ?
 
WRInaute passionné
Ces pages avec ces paramètres sont-elles encore indexées ?

Non, avec la mise en place du rewriting + redirections 301 par htaccess, Googlebot a remplacé petit à petit les anciennes par les nouvelles dans son index, c'est pour cela que je souhaitais mettre ces paramètres sur "Aucune URL" dans "Ce que Google doit explorer".

Je ne sais pas si ça améliorera quoi que ce soit pour mon site mais je pense que ça permettra à Googlebot de ne plus perdre son temps sur ces pages et ainsi améliorer le crawlage des "vrai" pages puisque par exemple, pour le paramètre "products_id" qui est l'id du produit sur la fiche produit product_info.php, j'ai testé ceci :

inurl:www.imprim@ntes.fr/product_info.php

Il ne m'a ressorti aucun résultat, ce qui veut donc dire qu'il ne connait plus aucune ancienne URL de fiche produit de mon site, je peux donc virer ce paramètre et mettre "Aucune URL" dans GWT ? D'autant qu'il est écrit "10 433 URLs surveillées", ça ferait pas mal de ménage.

En + dans l'admin de mon site je vois qui est en ligne et sur quelle page et Googlebot teste souvent des anciennes URLs (bien qu'il soit redirigé sur les bonnes en 301 après)
 
Olivier Duffez (admin)
Membre du personnel
si ces pages ne sont plus indexées, elles ne devraient plus être crawlées, ou alors il reste beaucoup de liens vers elles. as-tu bien mis à jour 100% de tes liens (en interne) ?
 
WRInaute passionné
Oui, tous mes liens sont 100% ok en interne sur mon site, j'ai mis pas mal de temps à mettre un bon rewriting en place, beaucoup de tests, .htaccess et redirections 301, tests sur l'URL rewritée de la page courante, liens internes réécrits correctement...

Toutes mes fiches produits n'ont qu'une seule URL possible : la nouvelle rewritée. Pour les backlinks vers elles, il n'y en a pratiquement aucun vers les fiches produits. Quelques uns sur les anciennes URLs de catégories et encore...

Je pense que Googlebot les garde en mémoire "au cas où" mais désormais il n'a plus besoin de les crawler. Il est vrai que le site était présent plusieurs années sans rewriting, ceci explique peut-être pourquoi Googlebot ne vide pas sa "mémoire" rapidement ?

Si je ne risque rien concernant l'indexation de mes pages, je préfère "supprimer" ces paramètres de GWT, ça lui évitera de perdre son temps à tester ces URLs pour se prendre une redirection 301 d'entrée
 
WRInaute passionné
Un petit retour au cas où quelqu'un passe par là et se pose la même question,

J'ai mis les paramètres d'URLs non rewritées sur 'Aucune URL' dans 'Ce que Google doit explorer' ce qui a amené Google à (re)tester les URLs surveillées sur mon site (je l'ai vu via l'admin qui est en ligne de mon site).

Pour le paramètre 'product_id' par exemple (variable GET id de produit dans l'URL des fiches produits non rewritées), j'avais 10433 URLs surveillées comme je l'ai dit dans un message précédent. Au bout d'une semaine, je n'ai plus que 78 URLs surveillées pour ce même paramètre.

Google a donc re-crawlé ces URLs après le réglage dans GWT et a bien purgé mes anciennes URLs de la liste d'URLs à surveiller. Vu le nombre très important de celles-ci, je pense que cela permettra à Google d'améliorer le crawlage et la mise à jour de mon site, et en particularité des pages profondes.

Merci
 
Olivier Duffez (admin)
Membre du personnel
Merci pour ce retour, qui montre en effet que ça vaut le coup de passer du temps à bien configurer les options
 
Discussions similaires
Haut