Modifier l'indexation des PDF pour éviter duplicate content

Discussion dans 'Crawl et indexation Google, sitemaps' créé par filiiip, 2 Septembre 2013.

  1. filiiip
    filiiip Nouveau WRInaute
    Inscrit:
    30 Août 2013
    Messages:
    11
    J'aime reçus:
    0
    Bonjour,

    Tout d'abord merci à WRI dont je suis un assidu. Ceci est ma première intervention sur ce forum, et je vais faire de mon mieux pour contribuer régulièrement.

    Je viens de prendre en charge l'administration du site www.cfbt-asso.com. Sur ce site, chaque formation est décrite sur une page web avec possibilité de télécharger une fiche PDF reprenant plus en détails cette description. Manifestement, Google a considéré qu'il y avait duplicate content, et il semble que c'est la fiche PDF qui était considéré comme canonique, puisque les requêtes faisaient apparaître les PDF plutôt que les pages web.

    J'ai beaucoup hésité sur la solution à adopter, et je commence à croire que j'ai fait un mauvais choix. L'idée, c'était de laisser Google indexer les fiches PDF mais en indiquant que la page canonique est la page web. Pour cela, j'ai utilisé la méthode indiquée par exemple ici : http://moz.com/blog/how-to-advanced-relcanonical-http-headers (3ème méthode : "HTTP Header Implementation"). Par ailleurs, j'ai fait un chmod 500 sur les fiches PDF, ce qui fait qu'un accès direct provoque une erreur 404.

    J'ai supposé que Google allait donc désindexer progressivement les fiches PDF et indexer progressivement les fiches alternatives basées sur la méthode "HTTP Header Implementation". Pour le moment, le seul effet visible, c'est une liste d'erreurs d'exploration qui s'allonge chaque jour dans Google Webmaster Tools (bizarrement, certaines dans la catégorie "accès refusé", d'autres dans la catégorie "introuvable").

    Cela m'inquiète : ai-je fait une bêtise ?

    Merci d'avance.
    Philippe
     
  2. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 873
    J'aime reçus:
    71
    Les fichiers PDF en question se trouvant tous dans un dossier /cfbt/fiches/, pourquoi ne pas avoir bloqué ce dossier dans GWT, de manière à demander une suppression du dossier et de son contenu ?
     
  3. pioc92
    pioc92 Nouveau WRInaute
    Inscrit:
    31 Décembre 2006
    Messages:
    42
    J'aime reçus:
    0
    C'est le chmod500 qui est de trop!
    Google doit avoir accès aux deux versions mais tu lui indiques que c'est la page web qui est canonique!
     
  4. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 658
    J'aime reçus:
    0
    il aurait perdu l'acquis en référencement de son PDF dans ce cas; j'aurais fait comme lui, cad donner un rel canonical via l'entête HTTP;
    par contre, l'erreur est bien sur de coller une erreur 500 sur les PDF.
    Si tu veux qu'ils restent consultables par l'internaute, le Canonical HTTP sans l'erreur 500. Sinon, personne ne pourra y accéder et vu qu'ils sont encore soit liés soit dans l'index Google, normal que le robot rencontre des erreurs.
    Si tu ne veux plus qu'ils soient consultables, mets une redirection 301 des PDF vers les pages HTML originales.
     
  5. filiiip
    filiiip Nouveau WRInaute
    Inscrit:
    30 Août 2013
    Messages:
    11
    J'aime reçus:
    0
    Waouh, quelle réactivité ! Grand merci.

    J'ai bien pour but, avec le chmod 500, en effet de rendre indisponible l'accès direct aux fiches PDF, car elles sont désormais accessibles via la "ruse" indiquée sur SEOMoz : au lien d'y accéder par /cfbt/fiches/fiche_blabla.pdf, on y accède désormais par /cfbt/fiche.php?form=blabla. C'est le script "fiche.php" qui constitue désormais les fiches PDF (via le header content-type:application/pdf) afin de placer le fameux <link... rel="canonical">. Je ne sais pas si c'est très clair...

    En tout cas, vous me conseillez de faire un disallow de /fiches/cfbt dans le fichier "robots.txt" ? C'est sûr que j'ai beaucoup hésité, j'avais préféré le chmod en pensant que la génération d'erreurs 404 seraient plus efficaces pour désindexer... Pour la même raison je n'ai pas fait de redirections 301, dans l'idée de faire disparaître les PDF de l'index de Google.

    Merci encore.
    Philippe
     
  6. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 873
    J'aime reçus:
    71
    En relecture de ce que tu cherches à faire, je te conseillerais davantage la solution de nickargall. Et la patience.
     
  7. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 658
    J'aime reçus:
    0
    Voui, redirection 301, rien d'autre
     
  8. filiiip
    filiiip Nouveau WRInaute
    Inscrit:
    30 Août 2013
    Messages:
    11
    J'aime reçus:
    0
    Petite précision : ce n'est pas d'erreur 500 qu'il s'agit (au sens http), mais juste un chmod 500 des fichiers PDF (r-x------) qui fait que seuls les scripts PHP peuvent accéder aux fiches. Voilà...
     
  9. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 658
    J'aime reçus:
    0
    ah ok, mal lu
    mais ça ne change rien :
    redirection 301, rien d'autre :mrgreen:
     
  10. filiiip
    filiiip Nouveau WRInaute
    Inscrit:
    30 Août 2013
    Messages:
    11
    J'aime reçus:
    0
    OK, R=301 !!!

    Je m'en occupe et viendrai rendre compte des effets de la chose...

    D'un coup je me sens moins seul face à mes questions existentielles ;-)
     
  11. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 873
    J'aime reçus:
    71
    Si tu veux quand même que les utilisateurs aient encore accès aux PDF, vérifie que la 301 ne les bloque pas eux aussi.
     
  12. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 658
    J'aime reçus:
    0
    Oui, la 301 c'est vraiment pour que personne n'y accede
     
  13. filiiip
    filiiip Nouveau WRInaute
    Inscrit:
    30 Août 2013
    Messages:
    11
    J'aime reçus:
    0
    Deux semaines plus tard, le temps de laisser Google réagir, je confirme que la redirection était indispensable, et que la "ruse" pour les PDF semble fonctionner.

    Un grand merci pour votre aide.
     
  14. nickargall
    nickargall WRInaute accro
    Inscrit:
    13 Juin 2005
    Messages:
    6 658
    J'aime reçus:
    0
    De rien, content que ça ait résolu ton problème.
     
  15. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 708
    J'aime reçus:
    79
    et l'utilisation de :
    Header set X-Robots-Tag "noindex" pour laisser crawler librement mais indiquer aux robots de ne pas les indexer ?
     
  16. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 057
    J'aime reçus:
    328
    c'est une ruse qui génère d'autres contenus dupliqués (puisque les PDF changent d'URL) : pas certain que ce soit le mieux

    vu qu'a priori les internautes doivent pouvoir consulter les PDF, moi j'aurais conseillé de rajouter uniquement l'entête d'URL canonique dans les headers HTTP, et bien entendu aussi de ne plus faire de lien a href vers ces PDF (pour favoriser les HTML)
     
Chargement...
Similar Threads - Modifier indexation éviter Forum Date
Comment modifier le lien dans copyright ( footer ) dans prestashop 1.7 Développement d'un site Web ou d'une appli mobile 1 Octobre 2019
Wordpress redirections et htaccess à modifier ? URL Rewriting et .htaccess 14 Janvier 2019
WordPress Comment modifier l'identité du site dans les fichiers ? Problèmes de référencement spécifiques à vos sites 23 Septembre 2018
Mysql, modifier des chaines avec différents caractères Administration d'un site Web 13 Septembre 2018
Modifier le contenu d'un bloc Développement d'un site Web ou d'une appli mobile 27 Février 2018
Comment modifier la balise Title et Hn sur wordpress ? Débuter en référencement 14 Janvier 2018
Modifier les mails sous wordpress e-commerce 9 Novembre 2017
Modifier les mails suivant les commandes e-commerce 4 Octobre 2017
Doit on modifier son site lors de la mise à jour de PHP ? Développement d'un site Web ou d'une appli mobile 3 Août 2017
Modifier le code d'un plugin de contenu similaire Développement d'un site Web ou d'une appli mobile 27 Mars 2016
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice