éviter duplicate content après url rewriting

WRInaute discret
bonjour

j'ai modifié mon htacess pour mettre en place l'url rewriting
sous la forme

Code:
RewriteRule ^nouvellepage-(.+)-([0-9]+)\.html$ anciennepage.php?top=id&id=$2&nom=$1 [L]

du coup j'ai essayé de lire pas mal de choses pour éviter le duplicate content avec mes anciennes pages qui sont indexées sur GG mais je ne vois pas trop comment faire pour écrire une syntaxe unique dans le htaccess pour ne plus que ces anciennes pages soient indexées...

comment dois-je m'y prendre?

merci de votre aide
 
WRInaute discret
mais si j'ai des centaines de pages qui avaient cette structure, il faut que j'écrive ces centaines de pages dans le robots.txt???
 
WRInaute occasionnel
Non toutes les pages contenant ce terme seront supprimer avec le temps.

Mais si tu as un page : anciennepage.php qui doit rester accessible alros tu met anciennepage.php? avec le point d'interrogation et toutes ses pages ne seront plus indexer ni crawlé.

Sinon c'est pas mal de faire des redirections 301 également pour pouvoir garder son indexation...
 
WRInaute accro
LeMulotNocturne a dit:
mettre anciennepage.php en disallow dans ton robots.txt

pas tant qu'elles sont indexées.

Dans les fichiers appelés par des URI réécrits, il faut faire une comparaison entre $_SERVER['REQUEST_URI'] et le contenu généré par la fonction de réécriture (puisque les variables sont connues, on peut le faire sans problème).

De là, si ils sont égaux, on ne fait rien... Sinon, on fait une redirection 301 vers l'URI "de contrôle".

--> les URLs non réécrits ne sont plus indexables, puisqu'ils renvoient une 301.
 
WRInaute discret
merci pour de vos réponses

pour prolonger, si toutes mes url dans le site pointent désormais vers les url reecrites, au bout de quelques temps GG va supprimer les anciennes de son index , non?

et pendant ce laps de temps, (est il long?), il y aura du duplicate content, mais est ce si grave?
 
WRInaute accro
Le délai dépendra avant tout de la capacité de ton site à se faire crawler en profondeur.

Cela implique:

- un site bien référencé
- un site au liage interne un tant soit peu étudié

A priori, quelques semaines tout au plus pour un site "classique".

Techniquement parlant, on ne peut pas dire qu'il y'aura du duplicate content "pendant ce temps", si on considère que l'analyse de "duplicate content" commence au moment de la détection d'une page pouvant être similaire, détection impliquant une vérification, donc une nouvelle visite et donc la réception d'un code d'état "301: Moved, Permanently".
 
Discussions similaires
Haut