Modifier l'indexation des PDF pour éviter duplicate content

Nouveau WRInaute
Bonjour,

Tout d'abord merci à WRI dont je suis un assidu. Ceci est ma première intervention sur ce forum, et je vais faire de mon mieux pour contribuer régulièrement.

Je viens de prendre en charge l'administration du site www.cfbt-asso.com. Sur ce site, chaque formation est décrite sur une page web avec possibilité de télécharger une fiche PDF reprenant plus en détails cette description. Manifestement, Google a considéré qu'il y avait duplicate content, et il semble que c'est la fiche PDF qui était considéré comme canonique, puisque les requêtes faisaient apparaître les PDF plutôt que les pages web.

J'ai beaucoup hésité sur la solution à adopter, et je commence à croire que j'ai fait un mauvais choix. L'idée, c'était de laisser Google indexer les fiches PDF mais en indiquant que la page canonique est la page web. Pour cela, j'ai utilisé la méthode indiquée par exemple ici : http://moz.com/blog/how-to-advanced-relcanonical-http-headers (3ème méthode : "HTTP Header Implementation"). Par ailleurs, j'ai fait un chmod 500 sur les fiches PDF, ce qui fait qu'un accès direct provoque une erreur 404.

J'ai supposé que Google allait donc désindexer progressivement les fiches PDF et indexer progressivement les fiches alternatives basées sur la méthode "HTTP Header Implementation". Pour le moment, le seul effet visible, c'est une liste d'erreurs d'exploration qui s'allonge chaque jour dans Google Webmaster Tools (bizarrement, certaines dans la catégorie "accès refusé", d'autres dans la catégorie "introuvable").

Cela m'inquiète : ai-je fait une bêtise ?

Merci d'avance.
Philippe
 
WRInaute accro
Les fichiers PDF en question se trouvant tous dans un dossier /cfbt/fiches/, pourquoi ne pas avoir bloqué ce dossier dans GWT, de manière à demander une suppression du dossier et de son contenu ?
 
WRInaute discret
C'est le chmod500 qui est de trop!
Google doit avoir accès aux deux versions mais tu lui indiques que c'est la page web qui est canonique!
 
WRInaute accro
il aurait perdu l'acquis en référencement de son PDF dans ce cas; j'aurais fait comme lui, cad donner un rel canonical via l'entête HTTP;
par contre, l'erreur est bien sur de coller une erreur 500 sur les PDF.
Si tu veux qu'ils restent consultables par l'internaute, le Canonical HTTP sans l'erreur 500. Sinon, personne ne pourra y accéder et vu qu'ils sont encore soit liés soit dans l'index Google, normal que le robot rencontre des erreurs.
Si tu ne veux plus qu'ils soient consultables, mets une redirection 301 des PDF vers les pages HTML originales.
 
Nouveau WRInaute
Waouh, quelle réactivité ! Grand merci.

J'ai bien pour but, avec le chmod 500, en effet de rendre indisponible l'accès direct aux fiches PDF, car elles sont désormais accessibles via la "ruse" indiquée sur SEOMoz : au lien d'y accéder par /cfbt/fiches/fiche_blabla.pdf, on y accède désormais par /cfbt/fiche.php?form=blabla. C'est le script "fiche.php" qui constitue désormais les fiches PDF (via le header content-type:application/pdf) afin de placer le fameux <link... rel="canonical">. Je ne sais pas si c'est très clair...

En tout cas, vous me conseillez de faire un disallow de /fiches/cfbt dans le fichier "robots.txt" ? C'est sûr que j'ai beaucoup hésité, j'avais préféré le chmod en pensant que la génération d'erreurs 404 seraient plus efficaces pour désindexer... Pour la même raison je n'ai pas fait de redirections 301, dans l'idée de faire disparaître les PDF de l'index de Google.

Merci encore.
Philippe
 
Nouveau WRInaute
Petite précision : ce n'est pas d'erreur 500 qu'il s'agit (au sens http), mais juste un chmod 500 des fichiers PDF (r-x------) qui fait que seuls les scripts PHP peuvent accéder aux fiches. Voilà...
 
Nouveau WRInaute
OK, R=301 !!!

Je m'en occupe et viendrai rendre compte des effets de la chose...

D'un coup je me sens moins seul face à mes questions existentielles ;-)
 
Nouveau WRInaute
Deux semaines plus tard, le temps de laisser Google réagir, je confirme que la redirection était indispensable, et que la "ruse" pour les PDF semble fonctionner.

Un grand merci pour votre aide.
 
WRInaute accro
et l'utilisation de :
Header set X-Robots-Tag "noindex" pour laisser crawler librement mais indiquer aux robots de ne pas les indexer ?
 
Olivier Duffez (admin)
Membre du personnel
filiiip a dit:
elles sont désormais accessibles via la "ruse" indiquée sur SEOMoz : au lien d'y accéder par /cfbt/fiches/fiche_blabla.pdf, on y accède désormais par /cfbt/fiche.php?form=blabla. C'est le script "fiche.php" qui constitue désormais les fiches PDF (via le header content-type:application/pdf) afin de placer le fameux <link... rel="canonical">. Je ne sais pas si c'est très clair...
c'est une ruse qui génère d'autres contenus dupliqués (puisque les PDF changent d'URL) : pas certain que ce soit le mieux

vu qu'a priori les internautes doivent pouvoir consulter les PDF, moi j'aurais conseillé de rajouter uniquement l'entête d'URL canonique dans les headers HTTP, et bien entendu aussi de ne plus faire de lien a href vers ces PDF (pour favoriser les HTML)
 
Discussions similaires
Haut