Duplicate content et robots.txt

Nouveau WRInaute
Bonsoir à tous,

J'ai des pages en duplicate content du type:

http://monsite.com/categorie-page-1-3593-date.html et http://monsite.com/categorie-3593.html

Pour l'instant j'ai bloqué avec robots.txt les URL en *-page-1-*
Du coup j'ai plein d'alertes dans GWT: URL à accès restreint par un fichier robots.txt ‎(11468)

Sachant que le sitemap est propre (il ne contient que la 2ème URL). Ma question est: ai-je bien fait :roll: d'utiliser robots.txt où ne vaut il pas mieux mettre une balise ROBOTS avec un attribut NOINDEX sur les pages en question?

Merci
 
WRInaute accro
Bonjour,

Il vaut mieux ne pas utiliser robots.txt et faire une redirection 301 des "-page-1-" vers les nouvelles adresses. Dans .htaccess, ça donne:
Code:
Options +FollowSymlinks
RewriteEngine on 
RewriteRule ^categorie-page-1-([0-9]+)-date\.html   http://www.ton_site.com/categorie-$1.html  [L,R=301]
Si "date" est une date, il faut la remplacer par l'expression rationnelle correspondante.

Jean-Luc
 
WRInaute discret
Question interessante puisque l'on peut être amené pour plusieurs raisons à avoir du duplicate content: présentation et trie de la page différente, présentation dans un sous domaine etc etc ...

Il est à priori suffisant de l'inclure au robots.txt, perso je le met plutôt dans les metas pour des soucis de discretion le robots.txt étant un plan lisible en 1 coup d'oeil.
 
WRInaute discret
Franck_21Media a dit:
Bonsoir à tous,

J'ai des pages en duplicate content du type:

http://monsite.com/categorie-page-1-3593-date.html et http://monsite.com/categorie-3593.html

Pour l'instant j'ai bloqué avec robots.txt les URL en *-page-1-*
Du coup j'ai plein d'alertes dans GWT: URL à accès restreint par un fichier robots.txt ‎(11468)

Sachant que le sitemap est propre (il ne contient que la 2ème URL). Ma question est: ai-je bien fait :roll: d'utiliser robots.txt où ne vaut il pas mieux mettre une balise ROBOTS avec un attribut NOINDEX sur les pages en question?
J'ai le même soucis.
Comment as tu écris ces pages dans ton robot pour éviter leur indexation ? Tu mets des * ? Ca passe les * dans un robots.txt ?
Merci
 
Nouveau WRInaute
Merci JeanLuc En effet la méthode la plus élégante est bien de supprimer le duplicate content en jouant avec l'URL rewriting même si c'est un peu plus compliqué, au final c'est beaucoup plus propre. Merci

Basket4Life dans mon robots.txt j'ai la ligne

Disallow: /*-categorie-page-1-*

Et cela marche très bien vu le nombre d'alerte remontée dans GWT :!:
 
Discussions similaires
Haut