Robots : Allow et Disallow ?

laraider · 20 Avril 2006

Bonjour, je suis entrain de créer mon premier robots.txt mais j'ai des doutes sur certains points.

Voilà, je me suis appercue que sur Google, il y avait des pages de mon site qui ne devraient pas y être, comme mes dossiers de pages ADMIN et autres dossier de modules (news, annuaire, annonces phpmyvisite ...).

Alors, par exemple, si je ne veux pas que les dossiers de mon annuaire soit vu, je dois faire quoi (merci de m'indiquer la bonne solution) :

Code:

1) User-agent: *
Disallow: /annuaire/admin
Disallow: /annuaire/addout
Disallow: /annuaire/cache
Disallow: /annuaire/gestion
Disallow: /annuaire/im
Disallow: /annuaire/inc
Disallow: /annuaire/lan
Disallow: /annuaire/script
Disallow: /annuaire/.htacsess
Disallow: /annuaire/option.php
Disallow: /annuaire/infos.php
...

Code:

2) User-agent: *
Disallow: /annuaire/

Code:

3) User-agent: *
Disallow: /annuaire

Mais si je veux bloquer tout le dossier ANNUAIRE mais autorisé 1 des pages, est ce que je dois faire ca (en plus des disallow) :

Code:

User-agent: *
Disallow: /annuaire
Allow: /annuaire/index.php

Et pour finir, si j'ai supprimé une page à la racine de mon site mais que malgrès tout, elle existe toujours dans Google, est ce que je dois la noter comme ca (sans le / devant) ?

Code:

User-agent: *
Disallow: test.php

Merci d'avance pour vos aides précieuses

serval2a · 20 Avril 2006

Bonjour,

Pour bloquer tout l'annuaire :

Code:

User-agent: *
Disallow: /annuaire/

Pour bloquer l'annuaire + une page du répertoire w2 :

Code:

User-agent: *
Disallow: /annuaire/
Disallow: /w2/page-a-bloquer.php

Pour bloquer une page à la racine + annuaire + une page du répertoire w2 :

Code:

User-agent: *
Disallow: /annuaire/
Disallow: /w2/page-a-bloquer.php
Disallow: /page-a-bloquer.php

Pour bloquer toutes les pages sauf une :
Utiliser une fonction php

@+

laraider · 20 Avril 2006

Salut et merci

Donc, j'ai compris pour bloquer TOUT un dossier mais si DANS se dossier, il y a 1 seule page que je ne veux pas bloquer, dois je le noter comme ca ?

Code:

User-agent: * 
Disallow: /annuaire 
Allow: /annuaire/index.php

Pour finir, j'ai une dernière question :
- A l'époque, mon site était en .htm mais depuis 1 an, mes pages sont en .php ... mais Goggle continue à me référencer toutes mes pages .htm alors qu'elles n'existent plus sur mon serveur depuis 1 an.
- Alors, est ce que dois noter TOUTES mes pages .htm a effacer, comme ca :

Code:

User-agent: *
Disallow: /jeux/ngage/tr/codes.htm
Disallow: /jeux/tr6/codes.htm
Disallow: /jeux/tr6/savoir.htm
Disallow: /jeux/tr5/fiche.htm
Disallow: /jeux/tr7/scenario.htm
Disallow: /jeux/tr6/commandes.htm
Disallow: /jeux/tr6/mouvements.htm
Disallow: /jeux/tr6/personnages.htm
Disallow: /jeux/tr6/problemes.htm
Disallow: /jeux/tr4/codes.htm
Disallow: /jeux/tr3/codes.htm
Disallow: /jeux/tr2/fiche.htm 
Disallow: /achats/jeux.htm
Disallow: /achats/livres.htm 
Disallow: /contact.htm 
Disallow: /films/angelina/galerie.htm
Disallow: /films/angietr.htm 
Disallow: /films/filmtr1.htm 
Disallow: /lara/imglara.htm 
etc...

Ou y a t'il une astuce pour pouvoir supprimer, TOUTES les pages .htm, tous dossiers confondus ?
P.S : je précise que j'ai au moins 300 pages .htm à supprimer de ggogle, et ces pages .htm n'existent plus, ni dans mon ordi, ni sur le net

Merci

serval2a · 20 Avril 2006

Bonjour,

Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.

Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :

Code:

User-agent: *
Allow: /annuaire/index.php
Disallow: /annuaire

Edit pour précision :
Disallow: /annuaire interdit toutes les pages du dossier annuaire ainsi qu'une éventuelle page annuaire.php
Disallow: /annuaire/ interdit toutes les pages du dossier annuaire mais laisse possible une page annuaire.php.

laraider · 20 Avril 2006

serval2a a dit:
Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.

Ok mais comment on crée une fonction php ?
Pour la balise méta, je suppose que tu parles du noindex, nofollow ou index, follow ... si c'est ca, oui je connais e tj'utilise pourtoutes les pages de mo nsite, mais apparemment, ca n'empeche pas Google de les référencer quand même.

serval2a a dit:
Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :

Code:

User-agent: * Allow: /annuaire/index.php Disallow: /annuaire

Donc, tu préconises de mettre les Allow devant les Disallow ... mais si tu dis que ca n'est pas interprété pareil par tous les robots, vaut mieux que je mette pas de Allow alors, et que je me tappe manuellemement tous mes Dissalow.

Pour mes url en .htm à virer (plus de 300) tu aurai une astuce rapide pour le noter dans mon robots.txt ou je dois là aussi les tapper manuellement ? A moins qu'on puisse faire un truc du genre ? :

Code:

User-agent: *
Disallow: /annuaire/.htm
Disallow: /*.htm
etc ...

Merci d'avance.

serval2a · 20 Avril 2006

Re,

Sans être sûr et donc c'est à corriger, en plaçant une fonction de ce style à la place de la meta relative aux robots :

Code:

<?php
$_SERVER['PHP_SELF']==$url
if   {
$url=="http://ndd/index"
echo"<meta name="ROBOTS" content="INDEX, FOLLOW">";
}
else
{
echo "<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
}
?>

laraider · 20 Avril 2006

Ah ok, merci j'ai tout compris (normalement)

Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pas

Merci.

laraider · 23 Septembre 2006

Up !!!

keroin · 23 Septembre 2006

laraider a dit:
Ah ok, merci j'ai tout compris (normalement)

Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pas Merci.

C'est normal il faut que ce fichier soit en libre accès pour être lu par les robots sinon il n'a plus la moindre utilité :wink:

laraider · 23 Septembre 2006

Bon/soir/jour

Oui mais du coup, on voit les sections que je veux pas qu'on trouve et on peux essayer d'y aller pour me pirater ... non ?

serval2a · 23 Septembre 2006

Bonjour,
Ca m'étonnerai quand même qu'un pirate lise un robots.txt avant d'agir.
Le robots.txt ne sert qu'a indiquer que certaines parties du site pourtant liées par d'autres sont interdites d'indexation.

Exemple ta page X contient la photo Y du répertoire Z, le moteur indexera la page X mais l'accès au répertoire Z lui étant interdit par le robots.txt, il n'indexera pas la photo Y.

@+

jeanluc · 23 Septembre 2006

Bonjour laraider,

Quelques petites remarques:

1. Disallow: /*.htm$
Cette ligne dans ton robots.txt interdit aux robots de Google d'accéder aux adresses .htm de ton site. Comme Google respecte robots.txt, Google ne vient plus voir ces adresses. Il ne voit donc pas la redirection 301 que tu y as placée. Recommendation : supprimer ce Disallow: néfaste.

2. Combiner robots.txt et balise META "robots"
Il est parfaitement possible d'utiliser robots.txt et balise META "robots"sur le même site, mais normalement pas pour les mêmes pages. Comme au paragraphe précédent, si robots.txt interdit l'accès aux adresses des pages, les robots ne liront pas la balise META.

3. robots.txt et sécurité
Le rôle de robots.txt n'est pas de sécuriser un site. robots.txt est un fichier qui permet au webmaster d'informer les robots. Les "gentils" robots respectent ses directives; les "méchants" robots utilisent ces directives à leur profit. Si des parties d'un site doivent être protégées, il faut utiliser .htaccess et .htpasswd ou d'autres techniques adaptées.

4. Directive Allow:
A éviter (expliqué plus haut par serval2a).

Plus d' infos : FAQ - Protocole d'Exclusion des Robots.

Jean-Luc