Comment enlever de l'index de Google les pages avec des paramêtres

Nouveau WRInaute
Bonjour,

J'ai un site qui génère de nombreuses pages indexées dans Google (>1 million). J'avais jusqu'à présent un soucis car j'avais des liens qui pointaient vers une même page mais avec des urls différentes ex :

exemple.com/parametre1/parametre2/tri.php?=l-20
exemple.com/parametre1/parametre2/tri.php?=l&page=2

La bonne page étant exemple.com/parametre1/parametre2/l/2

J'ai donc mis en no-follow les liens que je ne pouvais pas modifier et modifié ceux que je pouvais. Pour m'assurer que Google ne prenne plus jamais en compte les pages avec des parametres du type tri.php?=XXX, etc.

Pour faire simple j'aimerais que Google n'indexe que les pages en /parametre1/parametre2/parametre3

je n'ai pas plus de niveau dans mes url.

Existe-t-il une manip avec le robot.txt ? autre chose ?
Merci pour vos retours...
 
WRInaute passionné
Tu peux jouer avec les wildcards dans le robots.txt

Par exemple j'ai ceci dans le mien qui interdit l'indexation des pages de pagination et des flux RSS :

Code:
User-agent: Googlebot
Disallow: /referencement/rss.php?*
Disallow: /referencement/?p*
 
Nouveau WRInaute
Je pense que l'url canonical est une bonne solution car j'ai des milliers de combinaisons param1/param2/
le fichier robot.txt serait alors aboslument énorme.

a moins qu'il existe une manière de dire quels que soient les parametres un truc du genre:

User-agent: Googlebot
Disallow: /premierniveau/deuxiemeniveau/?p*
 
WRInaute accro
Bonjour

La balise Canonical semble toute indiquée. Pour ma part, je la couple à un contrôle temps réel de l'URL au chargement de la page (quand je peux évidemment) ; en clair, j'analyse l'URL appelée et selon sa tête, je place un "noindex,follow" en plus de la balise Canonical.

Ainsi, la boucle est bouclée.
 
Discussions similaires
Haut