Empêcher l'indexation des fichier .pdf et du robots.txt

Discussion dans 'Crawl et indexation Google, sitemaps' créé par alex84, 28 Octobre 2014.

  1. alex84
    alex84 WRInaute impliqué
    Inscrit:
    6 Mars 2010
    Messages:
    744
    J'aime reçus:
    0
    bonjour à tous,

    à ma grande surprise google m'a indexé une url (/123.pdf) contenant un fichier pdf.
    quelle est la bonne méthode pour que cette url soit considérée comme noindex par les robots ?
    il m'a aussi indexé l'url du robots.txt (/robots.txt). là encore quelle est la bonne méthode pour que cette url soit considérée comme noindex par les robots ?

    merci d'avance pour vos réponses.
     
  2. baud74
    baud74 WRInaute impliqué
    Inscrit:
    21 Juillet 2014
    Messages:
    580
    J'aime reçus:
    0
    les mettre dans le robots.txt
     
  3. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 858
    J'aime reçus:
    5
    Méthode via Robots.txt:

    Code:
    User-agent: *
    Disallow: /pdf/ # Bloquer le répertoire /pdf/ (si les fichiers pdf s'y trouvent...)
    Disallow: *.pdf  # Bloquer les fichiers .pdf (non-standard, mais sera suivi par Google)
    Méthode via .htaccess:

    Code:
    <FilesMatch "\.pdf$">
    Header set X-Robots-Tag "noindex, noarchive"
    </Files>
    NB: cela n'empèche pas un URL détecté de figurer dans les résultats de recherche Google. Par contre, ça interdit à Google d'en indexer le contenu.

    PS: ajoute à cela un rel="nofollow" sur les liens qui mènent à ces pdf ;)
     
  4. alex84
    alex84 WRInaute impliqué
    Inscrit:
    6 Mars 2010
    Messages:
    744
    J'aime reçus:
    0
    merci pour vos réponses.
    j'ai mis
    Code:
    <FilesMatch "\.pdf$">
    Header set X-Robots-Tag "noindex, noarchive"
    </Files>
    mais le soucis c'est que çà provoque une erreur 500, je ne comprends pas pourquoi.
     
Chargement...
Similar Threads - Empêcher indexation fichier Forum Date
Empêcher l'indexation de mon fichier sitemap Débuter en référencement 29 Avril 2016
Empécher indexation Crawl et indexation Google, sitemaps 10 Avril 2018
Empêcher l'indexation avec robots.txt d'un sous domaine (version mobile) Administration d'un site Web 6 Mars 2013
Empêcher l'indexation des liens de parrainage Administration d'un site Web 20 Février 2013
Empêcher l'indexation d'un morceau de texte dans une page Rédaction web et référencement 19 Janvier 2012
Comment empêcher l'indexation de texte après un <a onclick=... Débuter en référencement 4 Novembre 2011
Empêcher l'indexation d'url virtuelle Google Analytics 27 Juillet 2011
Empêcher l'indexation d'un sous-domaine Débuter en référencement 26 Avril 2011
Empêcher l'indexation des urls a paramètres sur robots.txt ? Débuter en référencement 30 Mars 2010
Robots.txt : empêcher l'indexation d'une page sans pénaliser les sous pages Problèmes de référencement spécifiques à vos sites 28 Janvier 2010
Comment empécher l'indexation d'une texte ? Crawl et indexation Google, sitemaps 14 Juillet 2009
Empecher l'indexation de la page d'accueil (car dynamique) ? Crawl et indexation Google, sitemaps 7 Juin 2009
Empecher l'indexation de quelques mots dans un page. Débuter en référencement 1 Mars 2009
empecher indexation animation flash Référencement Google 3 Septembre 2005
Empêcher le download mais autoriser la lecture mp3 URL Rewriting et .htaccess 17 Août 2021
WordPress Empêcher le scraping de mon site Administration d'un site Web 19 Novembre 2020
PHP empêcher form onsubmit si formulaire invalide Développement d'un site Web ou d'une appli mobile 29 Juin 2020
Comment empecher google d'indexer "une suite d'URL". Débuter en référencement 8 Mars 2020
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
désindexer et/ou empêcher crawl ? Crawl et indexation Google, sitemaps 4 Janvier 2019