Robots.txt et duplicate content - faut-il lister mon contenu

WRInaute occasionnel
Bonjour,

"je" lance un site web et je me pose pas mal de questions.

Pour un certain nombre de raisons, certaines des mes pages sont accessibles via plusieurs urls, par exemple, un article est accessible via :

/markets/market1/articles.aspx?id=33
et
/allservices/articles.aspx?id=33

ai-je intérêt à mettre un disallow sur l'une des deux URLs, sachant que le contenu de la page n'est pas exatement le même ; l'article est le même, mais le titre de la rubrique n'est pas le même (market1 dans le premier cas, services dans le second).

Bon je suppose qu'aux yeux du robot Google c'est la même page, quel est le risque ? Duplicate content ? Cela veut dire que Google va correctement indexer une des deux pages et pas l'autre ? Cela ne me pose pas de problème tant qu'au moins une des deux pages est correctement indexée. Je laisse Google choisir ou je lui colle un robots.txt entre les dents ?
 
WRInaute discret
Bonsoir,

En ce moment je teste, non pas un robots.txt, mais des balises meta faisant la même chose.

Le resultat est que toute la partie du site concernée a été désindexquée.

Mais...mais, mais il faut attendre, seulement depuis 15 jours.

Jean.
 
WRInaute occasionnel
j dahec a dit:
Le resultat est que toute la partie du site concernée a été désindexquée.
normal.

Ma question est la suivante :

ai-je intérêt à interdire l'indexation des pages contenant le contenu dupliqué à l'aide du fichier robots.txt (c'est quand même plus propre et plus facile à gérer qu'une metabalise),

ou ai-je intérêt à laisser Googler gérer le problème et à indexer ce que bon lui semble ?
 
WRInaute occasionnel
J'ai déjà un sitemap, là n'est pas le problème.

Ma question est justement : faut-il diriger Google ou faut-il le laisser faire à sa guise ?
 
Discussions similaires
Haut