Empêcher l'indexation des fichier .pdf et du robots.txt

alex84

WRInaute impliqué
bonjour à tous,

à ma grande surprise google m'a indexé une url (/123.pdf) contenant un fichier pdf.
quelle est la bonne méthode pour que cette url soit considérée comme noindex par les robots ?
il m'a aussi indexé l'url du robots.txt (/robots.txt). là encore quelle est la bonne méthode pour que cette url soit considérée comme noindex par les robots ?

merci d'avance pour vos réponses.
 

HawkEye

WRInaute accro
Méthode via Robots.txt:

Code:
User-agent: *
Disallow: /pdf/ # Bloquer le répertoire /pdf/ (si les fichiers pdf s'y trouvent...)
Disallow: *.pdf  # Bloquer les fichiers .pdf (non-standard, mais sera suivi par Google)

Méthode via .htaccess:

Code:
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, noarchive"
</Files>

NB: cela n'empèche pas un URL détecté de figurer dans les résultats de recherche Google. Par contre, ça interdit à Google d'en indexer le contenu.

PS: ajoute à cela un rel="nofollow" sur les liens qui mènent à ces pdf ;)
 

alex84

WRInaute impliqué
merci pour vos réponses.
j'ai mis
Code:
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, noarchive"
</Files>
mais le soucis c'est que çà provoque une erreur 500, je ne comprends pas pourquoi.
 

Discussions similaires

Haut