Question générale sur l'URL rewriting et Googlebot

WRInaute passionné
Bonjour à tous,

J'aurais besoin que vous m’éclaircissiez sur un aspect de l'URL rewriting face à Googlebot.

Par exemple, j'ai une page qui s'appelle "fiche_produit.php".
Pour un produit, la page est "fiche_produit.php?id_produit=100"
Je fais de l'URL rewriting et l'URL devient "la-fiche-produit-du-produit-100.html"

Mes questions sont :
1) Quand Googlebot crawle "la-fiche-produit-du-produit-100.html", est-ce qu'il sait qu'il est sur "fiche_produit.php?id_produit=100" ?
2) Si je bloque "fiche_produit.php" dans mon robots.txt, est-ce que Googlebot peut crawler et indexer "la-fiche-produit-du-produit-100.html" ?
3) Si avant j'indexais toutes les URLs du type "fiche_produit.php?id_produit=100" et qu'ensuite je fais du rewriting et que toutes les URLs deviennent du type "la-fiche-produit-du-produit-100.html", est-ce je peux bloquer les URLs du type "fiche_produit.php?id_produit=100" ? Est-ce qu'il aura toujours accès aux URLs rewritées ?

4) Autre chose: Avant le rewriting, j'avais dans mes URLs le paramètre GET "id_produit=100" par exemple. Une fois le rewriting mis en place, ce paramètre n'existe plus vraiment dans l'URL rewritée du type "la-fiche-produit-du-produit-100.html". DONC: Est-ce que dans GWT > Paramètres d'URLs, on peut dire de ne plus prendre en compte ce paramètre GET.

Je vous demande ça car avant mes URLs était indéxées non rewritées mais désormais elle le sont, mais je ne sais pas trop ce que je peux ou ne peux pas bloquer pour Googlebot. Car il teste toujours d'anciennes URLs et me propose mes paramètres GET dans GWT bien qu'ils ne soient plus dans les URLs (enfin si mais pas les rewritées... ^^)

J'espère être assez clair.. Merci pour votre aide :)
 
WRInaute accro
Bonjour

Première chose, la mise en place de rééctriture d'URL sur un site déjà indexé n'est pas forcément une bonne idée.


Ici, tu te poses beaucoup de question; la seule chose que tu aies à faire, est de mettre en place un système qui provoque la redirection 301 des "URL non réécrites" vers l'URL réécrite correspondant.

En résumé,

fiche_produit.php?id_produit=100 ==301==> la-fiche-produit-du-produit-100.html
fiche_produit.php?id_produit=200 ==301==> la-fiche-produit-du-produit-200.html
Etc.

Ne fais rien d'autre que ça.
 
WRInaute passionné
Les 301 sont faites depuis plus d'un an, rewriting dans .htaccess et 301 en PHP

Ce que je voudrais c'est des réponses à mes questions pour bien comprendre le fonctionnement
 
WRInaute accro
1) Quand Googlebot crawle "la-fiche-produit-du-produit-100.html", est-ce qu'il sait qu'il est sur "fiche_produit.php?id_produit=100" ?

==> Non

2) Si je bloque "fiche_produit.php" dans mon robots.txt, est-ce que Googlebot peut crawler et indexer "la-fiche-produit-du-produit-100.html" ?

==> Oui

3) Si avant j'indexais toutes les URLs du type "fiche_produit.php?id_produit=100" et qu'ensuite je fais du rewriting et que toutes les URLs deviennent du type "la-fiche-produit-du-produit-100.html", est-ce je peux bloquer les URLs du type "fiche_produit.php?id_produit=100" ? Est-ce qu'il aura toujours accès aux URLs rewritées ?

==> Oui, mais mieux vaut rediriger en 301 que bloquer

4) Autre chose: Avant le rewriting, j'avais dans mes URLs le paramètre GET "id_produit=100" par exemple. Une fois le rewriting mis en place, ce paramètre n'existe plus vraiment dans l'URL rewritée du type "la-fiche-produit-du-produit-100.html". DONC: Est-ce que dans GWT > Paramètres d'URLs, on peut dire de ne plus prendre en compte ce paramètre GET.

==> Oui, mais mieux vaut rediriger en 301 que bloquer
 
WRInaute passionné
DONC: Est-ce que dans GWT > Paramètres d'URLs, on peut dire de ne plus prendre en compte ce paramètre GET.

==> Oui, mais mieux vaut rediriger en 301 que bloquer
Dès lors que les pages contenant des paramètres ne sont plus accessibles par googlebot du fait de l'U.R., il n'est plus nécessaire de restreindre des paramètres.
 
WRInaute passionné
Merci pour vos réponses !

Donc c'est bien ce que je pensais, on peut ne laisser que les URLs rewritées pour indexer les pages, merci !

Concernant les 301, je sais que c'est mieux que de bloquer seulement Googlebot vient toujours tester mes URLs NON rewritées et me propose toujours les paramètres GET dans GWT donc je me demandais si je pouvais ENFIN virer tout ça sans risquer de désindexer mes URLs rewritées
 
Discussions similaires
Haut