Utilisation du fichier robots.txt

tibashoult · 5 Août 2008

Bonjour tous le monde

J'ai une question pour les fortiches du site !

Sur mon site, Google m'a indexé des pages html que je ne désire pas plus que ça... je voulais savoir si avec mon fichier robots.txt je pouvais exclure un répertoire, mais que Google continue d'indexer des pages qui sont dans ce répertoire (inscritent dans mon sitemap.xml).

En fait, je ne développe quand html, et pour afficher des images, j'utilise des petits fichier html, qui ne servent qu'à cela. Il n'y a donc pas d'intérêt de les indexer.

Dans mon fichier robots.txt j'ai ces 2 lignes :
Disallow: /Rep1/
Sitemap: http://mon site/Sitemap.xml

dans le fichier Sitemap.xml; j'ai cette ligne
<url>
<loc>http://mon site/Rep1/page.html</loc>
<lastmod>2008-07-07</lastmod>
<priority>0.5</priority>
<changefreq>monthly</changefreq>
</url>

Malgré l'interdiction du répertoire, est ce que ma page sera quand même indexée dans Google (sans erreur ou avertissement d'URL bloqué par exemple).

Merci pour vos réponse ! :wink:

HawkEye · 6 Août 2008

Non, si tu Disallow: /Rep1/, tous les documents situés sous ./Rep1/ sont rendus non-indexables (y-compris "Rep1/Rep2/*").

jeanluc · 6 Août 2008

D'accord avec HawkEye, mais ces pages n'ont rien à faire dans ton sitemap. Déjà qu'un sitemap exact n'a pas beaucoup d'intérêt, je ne vois pas ce que tu espères d'un sitemap incorrect.

Jean-Luc

tibashoult · 6 Août 2008

HawkEye a dit:
Non, si tu Disallow: /Rep1/, tous les documents situés sous ./Rep1/ sont rendus non-indexables (y-compris "Rep1/Rep2/*").

Merci HawkEye

En fouillant un peu partout j'arrive à la même conclusion. Je vais plutôt utiliser la fonction meta pour indiquer de ne pas suivre les liens ! Je pense que se sera plus efficace.

La balise <META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW"> est elle respectée par les robots (google et yahoo...)

Merci