Interaction robots.txt , réecriture d'url

Discussion dans 'Crawl et indexation Google, sitemaps' créé par pio, 18 Février 2012.

  1. pio
    pio Nouveau WRInaute
    Inscrit:
    23 Avril 2010
    Messages:
    4
    J'aime reçus:
    0
    Bonjour à tous.

    Je suis autodidacte donc à la rue ;)
    Apres maintes recherches il y a toujours un point qui m'échappe au niveau du robots.txt
    J'aimerais faire interdire l'indexation de tous les scripts de mon site qui sont réunis dans un dossier. Ceci dans le but paranoîaque de ne pas dévoiler l'arborescence du site dans le robots.txt

    Genre
    USER:*
    Disalow: /repertoire-principale/

    et donc de permettre que l'indexation du fichier index, qui est à la racine, au même niveau que le répertoire principal qui contient les scripts, les templates, les styles, les images, l'admin... tout quoi.

    Seulement, il y a des pages qui sont à l’intérieur de ce répertoire principal qui doivent être indexée mais dont les url sont réécrites

    Genre
    RewriteRules ^ma-page-a-indexee-réecrite-$ repertoire-principal/sous-dossier/script.php?var=$1&... [L]

    Donc ma question:
    est ce que l'url réécrite de la page sera quand même indexée si j'interdis du coté du robots.txt l'indexation du script ?

    Je pense que c'est une question de débutant mais je bute

    Merci
     
  2. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Bonjour,

    En bref, robots.txt ne se préoccupe pas des fichiers. Pour lui, seules comptent les URL.

    Fais gaffe à la syntaxe exacte sinon tu auras des mauvaises surprises dans robots.txt :
    Code:
    USER:*
    Disalow: /repertoire-principal/
    n'aura aucun effet.

    Par contre :
    Code:
    User-agent: *
     Disallow: /repertoire-principal/
    interdira toutes les URL commençant par http://www.ton_site.com/repertoire-principal/ (donc http://www.ton_site.com/repertoire-principal/bidouille.php sera aussi interdit).

    J'espère que cela clarifie les choses.

    Jean-Luc
     
  3. pio
    pio Nouveau WRInaute
    Inscrit:
    23 Avril 2010
    Messages:
    4
    J'aime reçus:
    0
    Ok c'est ce que je voulais savoir.

    Merci pour la rectification du code mais je l'ai tapé à la va vite :oops:

    Est ce que c'est une pratique courante de faire ce que j'ai cité plus haut, ou c'est plutôt déconseillé ?
    (mal vu par les moteurs genre google, ou autre chose qui m'échappe )

    Est ce qu'il y en a qui réécrive l’accès au robots.txt ?
    Genre:
    Code:
    RewriteRules ^robots.txt$  robots.php [L]
    
    pour y faire un filtrage par exemple.
     
Chargement...
Similar Threads - Interaction robots réecriture Forum Date
3000 likes 10 interactions Facebook 16 Mai 2020
Intérêt et interaction du visiteur Google Analytics 7 Mars 2012
le noindex dans le robots.txt Débuter en référencement 19 Novembre 2021
suppression des pages bloquées par robots.txt Débuter en référencement 18 Octobre 2021
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 14 Juillet 2021
Les mots-clés de mon site ne sont pas détectés par les robots de référencement Problèmes de référencement spécifiques à vos sites 7 Juillet 2021
Wordpress et le robots.txt Débuter en référencement 21 Juin 2021
Search Console noindex détecté dans la balise Meta robots Débuter en référencement 21 Mai 2021
Urls filtrées indexées et crawl robots.txt Crawl et indexation Google, sitemaps 19 Mai 2021
Robots : n'autoriser que les 4 ou 5 moteurs de recherche principaux Crawl et indexation Google, sitemaps 15 Janvier 2021