Robots : Allow et Disallow ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par laraider, 20 Avril 2006.

  1. laraider
    laraider Nouveau WRInaute
    Inscrit:
    4 Avril 2006
    Messages:
    32
    J'aime reçus:
    0
    Bonjour, je suis entrain de créer mon premier robots.txt mais j'ai des doutes sur certains points.

    Voilà, je me suis appercue que sur Google, il y avait des pages de mon site qui ne devraient pas y être, comme mes dossiers de pages ADMIN et autres dossier de modules (news, annuaire, annonces phpmyvisite ...).

    Alors, par exemple, si je ne veux pas que les dossiers de mon annuaire soit vu, je dois faire quoi (merci de m'indiquer la bonne solution) :

    Code:
    1) User-agent: *
    Disallow: /annuaire/admin
    Disallow: /annuaire/addout
    Disallow: /annuaire/cache
    Disallow: /annuaire/gestion
    Disallow: /annuaire/im
    Disallow: /annuaire/inc
    Disallow: /annuaire/lan
    Disallow: /annuaire/script
    Disallow: /annuaire/.htacsess
    Disallow: /annuaire/option.php
    Disallow: /annuaire/infos.php
    ...
    
    Code:
    2) User-agent: *
    Disallow: /annuaire/
    Code:
    3) User-agent: *
    Disallow: /annuaire
    Mais si je veux bloquer tout le dossier ANNUAIRE mais autorisé 1 des pages, est ce que je dois faire ca (en plus des disallow) :

    Code:
    User-agent: *
    Disallow: /annuaire
    Allow: /annuaire/index.php
    Et pour finir, si j'ai supprimé une page à la racine de mon site mais que malgrès tout, elle existe toujours dans Google, est ce que je dois la noter comme ca (sans le / devant) ?

    Code:
    User-agent: *
    Disallow: test.php
    Merci d'avance pour vos aides précieuses :)
     
  2. serval2a
    serval2a WRInaute accro
    Inscrit:
    21 Mars 2005
    Messages:
    2 550
    J'aime reçus:
    0
    Bonjour,

    Pour bloquer tout l'annuaire :
    Code:
    User-agent: *
    Disallow: /annuaire/
    Pour bloquer l'annuaire + une page du répertoire w2 :
    Code:
    User-agent: *
    Disallow: /annuaire/
    Disallow: /w2/page-a-bloquer.php
    Pour bloquer une page à la racine + annuaire + une page du répertoire w2 :
    Code:
    User-agent: *
    Disallow: /annuaire/
    Disallow: /w2/page-a-bloquer.php
    Disallow: /page-a-bloquer.php
    Pour bloquer toutes les pages sauf une :
    Utiliser une fonction php

    @+
     
  3. laraider
    laraider Nouveau WRInaute
    Inscrit:
    4 Avril 2006
    Messages:
    32
    J'aime reçus:
    0
    Salut et merci :)

    Donc, j'ai compris pour bloquer TOUT un dossier mais si DANS se dossier, il y a 1 seule page que je ne veux pas bloquer, dois je le noter comme ca ?

    Code:
    User-agent: * 
    Disallow: /annuaire 
    Allow: /annuaire/index.php
    Pour finir, j'ai une dernière question :
    - A l'époque, mon site était en .htm mais depuis 1 an, mes pages sont en .php ... mais Goggle continue à me référencer toutes mes pages .htm alors qu'elles n'existent plus sur mon serveur depuis 1 an.
    - Alors, est ce que dois noter TOUTES mes pages .htm a effacer, comme ca :

    Code:
    User-agent: *
    Disallow: /jeux/ngage/tr/codes.htm
    Disallow: /jeux/tr6/codes.htm
    Disallow: /jeux/tr6/savoir.htm
    Disallow: /jeux/tr5/fiche.htm
    Disallow: /jeux/tr7/scenario.htm
    Disallow: /jeux/tr6/commandes.htm
    Disallow: /jeux/tr6/mouvements.htm
    Disallow: /jeux/tr6/personnages.htm
    Disallow: /jeux/tr6/problemes.htm
    Disallow: /jeux/tr4/codes.htm
    Disallow: /jeux/tr3/codes.htm
    Disallow: /jeux/tr2/fiche.htm 
    Disallow: /achats/jeux.htm
    Disallow: /achats/livres.htm 
    Disallow: /contact.htm 
    Disallow: /films/angelina/galerie.htm
    Disallow: /films/angietr.htm 
    Disallow: /films/filmtr1.htm 
    Disallow: /lara/imglara.htm 
    etc...
    Ou y a t'il une astuce pour pouvoir supprimer, TOUTES les pages .htm, tous dossiers confondus ?
    P.S : je précise que j'ai au moins 300 pages .htm à supprimer de ggogle, et ces pages .htm n'existent plus, ni dans mon ordi, ni sur le net

    Merci :)
     
  4. serval2a
    serval2a WRInaute accro
    Inscrit:
    21 Mars 2005
    Messages:
    2 550
    J'aime reçus:
    0
    Bonjour,

    Attention, "allow" ne fait pas partie du protocole robots.txt, par conséquent son effet peut-être différent suivant les spiders il vaut mieux à mon avis inclure dans l'annuaire une fonction php qui renverrait suivant les cas une balise meta ROBOTS.

    Pour ceux qui l'accèptent il me semble qu'il faut plutôt utiliser :
    Code:
    User-agent: *
    Allow: /annuaire/index.php
    Disallow: /annuaire
    Edit pour précision :
    Disallow: /annuaire interdit toutes les pages du dossier annuaire ainsi qu'une éventuelle page annuaire.php
    Disallow: /annuaire/ interdit toutes les pages du dossier annuaire mais laisse possible une page annuaire.php.
     
  5. laraider
    laraider Nouveau WRInaute
    Inscrit:
    4 Avril 2006
    Messages:
    32
    J'aime reçus:
    0
    Ok mais comment on crée une fonction php ?
    Pour la balise méta, je suppose que tu parles du noindex, nofollow ou index, follow ... si c'est ca, oui je connais e tj'utilise pourtoutes les pages de mo nsite, mais apparemment, ca n'empeche pas Google de les référencer quand même.

    Donc, tu préconises de mettre les Allow devant les Disallow ... mais si tu dis que ca n'est pas interprété pareil par tous les robots, vaut mieux que je mette pas de Allow alors, et que je me tappe manuellemement tous mes Dissalow.

    Pour mes url en .htm à virer (plus de 300) tu aurai une astuce rapide pour le noter dans mon robots.txt ou je dois là aussi les tapper manuellement ? A moins qu'on puisse faire un truc du genre ? :
    Code:
    User-agent: *
    Disallow: /annuaire/.htm
    Disallow: /*.htm
    etc ...
    Merci d'avance.
     
  6. serval2a
    serval2a WRInaute accro
    Inscrit:
    21 Mars 2005
    Messages:
    2 550
    J'aime reçus:
    0
    Re,

    Sans être sûr et donc c'est à corriger, en plaçant une fonction de ce style à la place de la meta relative aux robots :
    Code:
    <?php
    $_SERVER['PHP_SELF']==$url
    if   {
    $url=="http://ndd/index"
    echo"<meta name="ROBOTS" content="INDEX, FOLLOW">";
    }
    else
    {
    echo "<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
    }
    ?>
     
  7. laraider
    laraider Nouveau WRInaute
    Inscrit:
    4 Avril 2006
    Messages:
    32
    J'aime reçus:
    0
    Ah ok, merci j'ai tout compris (normalement) :)

    Juste pour savoir ... c'est normal qu'on peut voir mon fichier robots.txt http://www.laraider.com/robots.txt ... ou il y a un truc pour que ca se vois pas :) Merci.
     
  8. laraider
    laraider Nouveau WRInaute
    Inscrit:
    4 Avril 2006
    Messages:
    32
    J'aime reçus:
    0
  9. keroin
    keroin WRInaute passionné
    Inscrit:
    29 Avril 2006
    Messages:
    1 501
    J'aime reçus:
    0
    C'est normal il faut que ce fichier soit en libre accès pour être lu par les robots sinon il n'a plus la moindre utilité :wink:
     
  10. laraider
    laraider Nouveau WRInaute
    Inscrit:
    4 Avril 2006
    Messages:
    32
    J'aime reçus:
    0
    Bon/soir/jour :)

    Oui mais du coup, on voit les sections que je veux pas qu'on trouve et on peux essayer d'y aller pour me pirater ... non ?
     
  11. serval2a
    serval2a WRInaute accro
    Inscrit:
    21 Mars 2005
    Messages:
    2 550
    J'aime reçus:
    0
    Bonjour,
    Ca m'étonnerai quand même qu'un pirate lise un robots.txt avant d'agir.
    Le robots.txt ne sert qu'a indiquer que certaines parties du site pourtant liées par d'autres sont interdites d'indexation.

    Exemple ta page X contient la photo Y du répertoire Z, le moteur indexera la page X mais l'accès au répertoire Z lui étant interdit par le robots.txt, il n'indexera pas la photo Y.

    @+
     
  12. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 875
    J'aime reçus:
    0
    Bonjour laraider,

    Quelques petites remarques:

    1. Disallow: /*.htm$
    Cette ligne dans ton robots.txt interdit aux robots de Google d'accéder aux adresses .htm de ton site. Comme Google respecte robots.txt, Google ne vient plus voir ces adresses. Il ne voit donc pas la redirection 301 que tu y as placée. Recommendation : supprimer ce Disallow: néfaste.

    2. Combiner robots.txt et balise META "robots"
    Il est parfaitement possible d'utiliser robots.txt et balise META "robots"sur le même site, mais normalement pas pour les mêmes pages. Comme au paragraphe précédent, si robots.txt interdit l'accès aux adresses des pages, les robots ne liront pas la balise META.

    3. robots.txt et sécurité
    Le rôle de robots.txt n'est pas de sécuriser un site. robots.txt est un fichier qui permet au webmaster d'informer les robots. Les "gentils" robots respectent ses directives; les "méchants" robots utilisent ces directives à leur profit. Si des parties d'un site doivent être protégées, il faut utiliser .htaccess et .htpasswd ou d'autres techniques adaptées.

    4. Directive Allow:
    A éviter (expliqué plus haut par serval2a).

    Plus d' infos : FAQ - Protocole d'Exclusion des Robots.

    Jean-Luc
     
Chargement...
Similar Threads - Robots Allow Disallow Forum Date
Sites de test indexés malgré Disallow dans robots.txt Crawl et indexation Google, sitemaps 7 Juin 2019
robots.txt avec Disallow:/*.php Débuter en référencement 23 Juin 2018
Robots.txt et syntaxe de Disallow Crawl et indexation Google, sitemaps 2 Juin 2017
Balise Noindex ou Disallow dans robots.txt Référencement Google 15 Septembre 2015
Robots.txt + sous domaine disallow Débuter en référencement 11 Août 2014
Page de liens spécifiées disallow dans le robots.txt Netlinking, backlinks, liens et redirections 18 Mars 2014
Robots.txt ok à 100% mais lu comme disallow dans GWT et Bing ? Crawl et indexation Google, sitemaps 16 Décembre 2013
Disallow robots.txt et pages sattellites Crawl et indexation Google, sitemaps 19 Juillet 2012
Disallow fichiers robots de facebook Débuter en référencement 16 Juillet 2012
Robots.txt : Disallow des pages sport-xxxx.html sans Disallow de sport-equestre.html Administration d'un site Web 8 Décembre 2010
Robots.txt Disallow:repertoire mais pas une URL Crawl et indexation Google, sitemaps 30 Octobre 2010
Disallow tag dans robots.txt Crawl et indexation Google, sitemaps 26 Octobre 2010
Disallow robots.txt Débuter en référencement 4 Février 2010
Robots.txt tout disallow sauf page accueil ? Problèmes de référencement spécifiques à vos sites 1 Février 2009
Cacher un dossier par Disallow et robots.txt Débuter en référencement 27 Août 2008
Robots.txt - Disallow pour des pages avec paramètre Google : l'entreprise, les sites web, les services 20 Octobre 2006
Robots.txt pour phpbb : Disallow de certaines urls Problèmes de référencement spécifiques à vos sites 30 Août 2004
GSC ne tient pas compte comande Allow dans robots.txt Crawl et indexation Google, sitemaps 21 Février 2019
Robots.txt : un Allow indiqué bloqué dans Webmaster Tools Développement d'un site Web ou d'une appli mobile 23 Juin 2010
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022