Robots.txt : Symboles * $ - Respect de la "casse" - .

Nouveau WRInaute
Bonjour,

Les symboles * et $ dans les robots.txt sont-ils compris par Google, Yahoo et Bing ?
Est-ce que vous les utilisez ?
Exemple :
Disallow: /*mavariable*
Où mavariable est par exemple une variable de session

De plus, il y a t'il une différence si on met des lettres en majuscule ?
Exemple :
Disallow: /Test/
Disallow: /test/

Est-ce que vous bloquez les fichiers CSS et Javascript ?

Enfin, si je mets dans le robots.txt :
Disallow: /mavariable=
(Où ma variable est par exemple une variable de session)
Est-ce que les robots arrêteront de crawler toutes les versions de l'index de mon site avec des valeurs de variable différentes.

Merci beaucoup pour vos réponses et bon week end. :D
 
WRInaute accro
Juyen a dit:
Les symboles * et $ dans les robots.txt sont-ils compris par Google, Yahoo et Bing ?

Je ne sais pas, mais ils ne sont pas autorisés par le standard. Le seul cas où "*" est autorisé, c'est comme User-agent, tout seul, pour dire "tout le monde".

Juyen a dit:
Exemple :
Disallow: /*mavariable*
Où mavariable est par exemple une variable de session

Ce serait quoi la justification d'un tel usage?

Juyen a dit:
De plus, il y a t'il une différence si on met des lettres en majuscule ?
Exemple :
Disallow: /Test/
Disallow: /test/

En théorie, oui.

Juyen a dit:
Est-ce que vous bloquez les fichiers CSS et Javascript ?

Quel intérêt? Soit le moteur ne les interprête de toutes façons pas et ne va pas aller les chercher, soit il les interprète au moins en partie, et dans ce cas, autant le laisser aller les lire.

Juyen a dit:
Enfin, si je mets dans le robots.txt :
Disallow: /mavariable=
(Où ma variable est par exemple une variable de session)
Est-ce que les robots arrêteront de crawler toutes les versions de l'index de mon site avec des valeurs de variable différentes.

Ils ne vont pas venir chercher les pages dont le chemin commence par /mavariable= quoi qu'il y ait après.

Un peu de lecture:
http://www.w3.org/TR/html4/appendix/notes.html#h-B.4.1.1
http://en.wikipedia.org/wiki/Robots.txt

Jacques.
 
Nouveau WRInaute
Bonjour,

Merci beaucoup pour ta réponse.

Disallow: /*mavariable*
Où mavariable est par exemple une variable de session
> Cela me permettrait d'empêcher le crawl sur des pages possédant des paramètres (parasites) de tracking par exemple.

L'intérêt de bloquer les fichiers Javascript et CSS serait de concentrer le crawl sur des pages de contenus et non des fichiers externes de ce type.

Bonne journée.
 
Discussions similaires
Haut