Chasse au duplicate content : robots.txt + suppression de page ?

Le-Gritche · 4 Mars 2010

Bonjour,

Sur un site, j'avais de nombreux duplicate que j'ai progressivement éliminés en modifiant mon robots.txt.
Quelques mois plus tard, toutes ces pages concernées apparaissent toujours dans l'index de Google lorsque je choisis d'inclure les pages ignorées dans les résultats de recherche.

Ils apparaissent dans les SERP sans snippet, sans titre, sans description, donc l'effet de mon robots.txt est correct.

Par contre, j'ai peur que ces pages soient toujours prises en compte dans le cadre de la détection du duplicate content, puisqu'elles sont toujours dans l'index. Votre avis ?

renan_22 · 5 Mars 2010

Bonjour,

En fait, il ne faut pas trop te soucier de duplicate content... Hormis si un site pompe ton contenu...

Quel type de duplicate content parle-tu?

S'il s'agit d'url différentes avec strictement le même contenu, une balise canonical devrait faire l'affaire...

http://www.mattcutts.com/blog/duplicate-content-question/
https://www.webrankinfo.com/dossiers/techniques/url-canonique

Le-Gritche · 7 Mars 2010

Oui il s'agit de plusieurs URL pointant sur la même page.

En clair, un veux PhpBB dont les URL des billets ont été indexées avant que je ne m'en rende compte.
J'ai pas mal de pages de mon sitemap qui ne sont pas indexées, je pense que c'est lié à ça. Je veux donc maintenant faire du propre et n'indexer que les pages des sujets.

Ma première réaction a été celle du robots.txt, mais je suis surpris que les pages bloquées apparaissent toujours en faisant une recherche avec la commande site:. Elles apparaissent "brutes" (URL et lien uniquement), mais apparaissent quand même...

Je viens d'appliquer le canonical aux pages concernées, on va voir ce que ça donne.
Merci.