Empêcher l'indexation des fichier .pdf et du robots.txt

alex84 · 28 Octobre 2014

bonjour à tous,

à ma grande surprise google m'a indexé une url (/123.pdf) contenant un fichier pdf.
quelle est la bonne méthode pour que cette url soit considérée comme noindex par les robots ?
il m'a aussi indexé l'url du robots.txt (/robots.txt). là encore quelle est la bonne méthode pour que cette url soit considérée comme noindex par les robots ?

merci d'avance pour vos réponses.

baud74 · 28 Octobre 2014

les mettre dans le robots.txt

HawkEye · 28 Octobre 2014

Méthode via Robots.txt:

Code:

User-agent: *
Disallow: /pdf/ # Bloquer le répertoire /pdf/ (si les fichiers pdf s'y trouvent...)
Disallow: *.pdf  # Bloquer les fichiers .pdf (non-standard, mais sera suivi par Google)

Méthode via .htaccess:

Code:

<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, noarchive"
</Files>

NB: cela n'empèche pas un URL détecté de figurer dans les résultats de recherche Google. Par contre, ça interdit à Google d'en indexer le contenu.

PS: ajoute à cela un rel="nofollow" sur les liens qui mènent à ces pdf

alex84 · 28 Octobre 2014

merci pour vos réponses.
j'ai mis

Code:

<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, noarchive"
</Files>

mais le soucis c'est que çà provoque une erreur 500, je ne comprends pas pourquoi.