Plusieurs fichiers robot.txt dans différents répertoires

  • Auteur de la discussion Auteur de la discussion PFA34
  • Date de début Date de début
Nouveau WRInaute
Bonjour à tous,

Je souhaiterais savoir s'il est possible de créer un fichier robot.txt à la racine puis de créer d'autres fichier robot.txt dans d'autres répertoires de mon site afin de ne pas avoir un seul fichier à la racine comprenant plus de 500 lignes !

D'ailleurs quels sont les limites à ne pas dépasser pour les différents moteurs de recherche ?
(taille en Mo du fichier, nombre de ligne maximum, nbre de robot.txt...)

Merci d'avance pour votre aide !

Abientôt

Adrien :D
 
WRInaute accro
Bonjour,

Il ne peut y avoir qu'un seul robots.txt (ne pas oublier le "s") et il doit être à la racine. Si tu en mets ailleurs, ils ne seront pas lus par les robots.

500 lignes, cela me semble énorme. Peut-être peux-tu simplifier l'écriture du fichier pour éviter une si longue liste ? Quels sont tes critères pour mettre une adresse dans robots.txt ?

Jean-Luc
 
Nouveau WRInaute
Merci pour la réponse très réactive !

je viens de reprendre tout mes robots.txt de mes différents répertoires et maintenant mon fichier est composé de la manière suivante :

=> User-agent: *
=> puis Disallow des différents répertoires
=> puis Disallow des URLS que j'ai supprimés et que je ne souhaite plus être indéxées
=> et en fin les différents sitemaps (un sitemap par répertoires principaux)

Vous pouvez voir le fichier robots.txt à l'URL suivante : http://www.pages-france-annuaire.fr/ et rajouter robots.txt à la suite

Mon nouveau fichier robot.txt fais maintenant 17Ko et près de 450 lignes
Cela respecte t il les recommandations des différents moteurs ?

:?:

Adrien
 
Nouveau WRInaute
Je viens de le tester dans les outils GW et il a l'air d'être pris en compte dans son intégralité du début jusqu'à la fin
Mais s'il éxiste une méthode afin de réduire mon nombre de ligne, car je bloque surtout l'accès à des sous répertoires identiques...
 
Olivier Duffez (admin)
Membre du personnel
il me semble bien qu'il peut y avoir un fichier robots.txt à la racine de chaque sous-domaine
 
WRInaute accro
Oui, j'aurais peut-être dû préciser un seul robots.txt par domaine ou sous-domaine.

Si les sous-domaines se trouvent dans des sous-répertoires du site principal, on aura alors l'impression qu'il y a plusieurs robots.txt dans le site principal, mais pour les robots, ce sera le robots.txt du site principal et un robots.txt par sous-domaine. Ainsi le fichier /machin/robots.txt sera lu comme machin.example.com/robots.txt, mais il ne sera pas lu comme www.example.com/machin/robots.txt.

Jean-Luc
 
Nouveau WRInaute
A désolé, j'oubli toujours le "s" à la fin de robots.txt
ésperant ne pas tromper les internautes !!!
:oops:
 
WRInaute accro
T'as testé un Disallow: /Region- tout bete ? Idée comme ca... non mais doit y avoir un truc pour simplifier quand meme

Déjà Disallow: /Region-Alsace/ au lieu de détailler pour chaque répertoire c'est pas mieux ? Y'a un répertoire que tu indexes ou même ?
 
Nouveau WRInaute
Le problème c'est que si je met Disallow: /Region-Alsace/
Plus aucune de mes pages de la région Alsace ne seront indéxées

c'est pour ca que je suis obligé de cibler chaque répertoire en attendant une meilleur solution car je crois que le fichier robot.txt est limité à 5ko et 1000 caractéres !

et la je suis à plus de 15000 caractères... et 17ko
 
Nouveau WRInaute
si je met :

Disallow: /Region-Alsace/
Allow: /Region-Alsace/themes
(par exemple)

le problème est que le Disallow bloquera mes fichiers .html dans /Region-Alsace/
exemple /Region-Alsace/footer.html

Je sais pas si c'est la meilleur solution...

(pour l'instant je remarque que mon robot.txt a l'air d'être pris en compte mais si ce n'est pas le cas je devrait m'arranger autrement)

Déjà je peu peut être enlever à la fin de mon fichier les différent sitemap.php
car j'ai un indexsitemap.xml qui reprend tous les sitemaps : http://www.pages-france-annuaire.fr/indexsitemap.xml
ca fera quelques lignes en moins, mais est ce que un index de sitemap seul est pris en compte par tout les moteurs ?
 
WRInaute accro
Pour ma part, je déconseille Allow qui n'est pas standard. Parce que si tu mets un Allow, celui qui ne le comprend pas fait comme s'il n'existait pas et, du coup, tout lui est interdit.

Pour Google, Yahoo et Microsoft, tu peux utiliser * pour remplacer n'importe quelle séquence de caractères, comme ceci:
Code:
User-agent: googlebot
User-agent: slurp
User-agent: msnbot
Disallow: /*/admin
Disallow: /*/cache
Disallow: /*/class
...
Ce n'est pas standard non plus, mais ça n'a pas d'effet négatif sur les autres robots.

Jean-Luc
 
Nouveau WRInaute
C'est exactement ce qu'il me fallait. Merci pour votre aide
Je créer le nouveau robots.txt et le met en place dés maintenant pour tester !

@+

Adrien
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut