Modifier l'indexation des PDF pour éviter duplicate content

filiiip · 2 Septembre 2013

Bonjour,

Tout d'abord merci à WRI dont je suis un assidu. Ceci est ma première intervention sur ce forum, et je vais faire de mon mieux pour contribuer régulièrement.

Je viens de prendre en charge l'administration du site www.cfbt-asso.com. Sur ce site, chaque formation est décrite sur une page web avec possibilité de télécharger une fiche PDF reprenant plus en détails cette description. Manifestement, Google a considéré qu'il y avait duplicate content, et il semble que c'est la fiche PDF qui était considéré comme canonique, puisque les requêtes faisaient apparaître les PDF plutôt que les pages web.

J'ai beaucoup hésité sur la solution à adopter, et je commence à croire que j'ai fait un mauvais choix. L'idée, c'était de laisser Google indexer les fiches PDF mais en indiquant que la page canonique est la page web. Pour cela, j'ai utilisé la méthode indiquée par exemple ici : http://moz.com/blog/how-to-advanced-relcanonical-http-headers (3ème méthode : "HTTP Header Implementation"). Par ailleurs, j'ai fait un chmod 500 sur les fiches PDF, ce qui fait qu'un accès direct provoque une erreur 404.

J'ai supposé que Google allait donc désindexer progressivement les fiches PDF et indexer progressivement les fiches alternatives basées sur la méthode "HTTP Header Implementation". Pour le moment, le seul effet visible, c'est une liste d'erreurs d'exploration qui s'allonge chaque jour dans Google Webmaster Tools (bizarrement, certaines dans la catégorie "accès refusé", d'autres dans la catégorie "introuvable").

Cela m'inquiète : ai-je fait une bêtise ?

Merci d'avance.
Philippe

UsagiYojimbo · 2 Septembre 2013

Les fichiers PDF en question se trouvant tous dans un dossier /cfbt/fiches/, pourquoi ne pas avoir bloqué ce dossier dans GWT, de manière à demander une suppression du dossier et de son contenu ?

pioc92 · 2 Septembre 2013

C'est le chmod500 qui est de trop!
Google doit avoir accès aux deux versions mais tu lui indiques que c'est la page web qui est canonique!

nickargall · 2 Septembre 2013

il aurait perdu l'acquis en référencement de son PDF dans ce cas; j'aurais fait comme lui, cad donner un rel canonical via l'entête HTTP;
par contre, l'erreur est bien sur de coller une erreur 500 sur les PDF.
Si tu veux qu'ils restent consultables par l'internaute, le Canonical HTTP sans l'erreur 500. Sinon, personne ne pourra y accéder et vu qu'ils sont encore soit liés soit dans l'index Google, normal que le robot rencontre des erreurs.
Si tu ne veux plus qu'ils soient consultables, mets une redirection 301 des PDF vers les pages HTML originales.

filiiip · 2 Septembre 2013

Waouh, quelle réactivité ! Grand merci.

J'ai bien pour but, avec le chmod 500, en effet de rendre indisponible l'accès direct aux fiches PDF, car elles sont désormais accessibles via la "ruse" indiquée sur SEOMoz : au lien d'y accéder par /cfbt/fiches/fiche_blabla.pdf, on y accède désormais par /cfbt/fiche.php?form=blabla. C'est le script "fiche.php" qui constitue désormais les fiches PDF (via le header content-type:application/pdf) afin de placer le fameux <link... rel="canonical">. Je ne sais pas si c'est très clair...

En tout cas, vous me conseillez de faire un disallow de /fiches/cfbt dans le fichier "robots.txt" ? C'est sûr que j'ai beaucoup hésité, j'avais préféré le chmod en pensant que la génération d'erreurs 404 seraient plus efficaces pour désindexer... Pour la même raison je n'ai pas fait de redirections 301, dans l'idée de faire disparaître les PDF de l'index de Google.

Merci encore.
Philippe

UsagiYojimbo · 2 Septembre 2013

En relecture de ce que tu cherches à faire, je te conseillerais davantage la solution de nickargall. Et la patience.

nickargall · 2 Septembre 2013

Voui, redirection 301, rien d'autre

filiiip · 2 Septembre 2013

Petite précision : ce n'est pas d'erreur 500 qu'il s'agit (au sens http), mais juste un chmod 500 des fichiers PDF (r-x------) qui fait que seuls les scripts PHP peuvent accéder aux fiches. Voilà...

nickargall · 2 Septembre 2013

ah ok, mal lu
mais ça ne change rien :
redirection 301, rien d'autre :mrgreen:

filiiip · 2 Septembre 2013

OK, R=301 !!!

Je m'en occupe et viendrai rendre compte des effets de la chose...

D'un coup je me sens moins seul face à mes questions existentielles ;-)

UsagiYojimbo · 2 Septembre 2013

Si tu veux quand même que les utilisateurs aient encore accès aux PDF, vérifie que la 301 ne les bloque pas eux aussi.

nickargall · 2 Septembre 2013

Oui, la 301 c'est vraiment pour que personne n'y accede

filiiip · 18 Septembre 2013

Deux semaines plus tard, le temps de laisser Google réagir, je confirme que la redirection était indispensable, et que la "ruse" pour les PDF semble fonctionner.

Un grand merci pour votre aide.

nickargall · 18 Septembre 2013

De rien, content que ça ait résolu ton problème.

indigene · 19 Septembre 2013

et l'utilisation de :
Header set X-Robots-Tag "noindex" pour laisser crawler librement mais indiquer aux robots de ne pas les indexer ?

WebRankInfo · 19 Septembre 2013

filiiip a dit:
elles sont désormais accessibles via la "ruse" indiquée sur SEOMoz : au lien d'y accéder par /cfbt/fiches/fiche_blabla.pdf, on y accède désormais par /cfbt/fiche.php?form=blabla. C'est le script "fiche.php" qui constitue désormais les fiches PDF (via le header content-type:application/pdf) afin de placer le fameux <link... rel="canonical">. Je ne sais pas si c'est très clair...

c'est une ruse qui génère d'autres contenus dupliqués (puisque les PDF changent d'URL) : pas certain que ce soit le mieux

vu qu'a priori les internautes doivent pouvoir consulter les PDF, moi j'aurais conseillé de rajouter uniquement l'entête d'URL canonique dans les headers HTTP, et bien entendu aussi de ne plus faire de lien a href vers ces PDF (pour favoriser les HTML)