Robots.txt

fupap · 8 Mars 2003

http://www.danse-africaine.net/robots.txt
j'ai fait un fichier robots.txt
pour bloquer certains robots de visiter le site
1) est ce que la syntaxe est bonne?
parceque turninbot est encore passe aujourd'hui malgre le fichier
2) j'ai bien laisse la porte aux autres?
3) derniere question si je rajoute un autre robot qu'elle est la syntaxe avec plusieurs robots interdits?
merci

Richard · 8 Mars 2003

Je te suggere plutot ceci :

User-agent: *
Disallow:

User-agent: TurnitinBot
Disallow: /

fupap · 8 Mars 2003

en fait j'ai copie celui de wri qu'olivier donnait dans un post
ce qui me gene c'est que le robot est repasse aujourd'hui et il vient presque tous les jours
ayant lu dans un topic qu'il ne servait a rien, je voulais le bloquer

Richard · 8 Mars 2003

Tu peux aller sur le site www.turnitin.com pour comprendre à quoi il sert...

C'est un robot respectueux du fichier robots.txt, comme c'est indiqué ici :
http://www.turnitin.com/robot/crawlerinfo.html

Si ça ne marche pas, tu peux toujours les contacter pour demander à ce que le bot ne visite plus ton site... Lit le document, c'est un modèle de clareté et de transparence, on aimerait voir ça plus souvent...

hetzeld · 8 Mars 2003

Fupap,

Certains robots ne lisent le fichier robots.txt qu'une fois par jour, parfois même moins souvent.
Heureusement car s'ils devaient le lire chaque fois qu'ils veulent indexer une page, ils doubleraient le nombre de hits.
Laisse passer 24 heures, et vérifie dans tes logs qu'il a bien demandé le robots.txt
Si malgré cela il indexe toujours ton site, tu peux lui interdire l'accès facilement en lui renvoyant un "403 forbidden". C'est décrit en détail dans l'article sur l'URL rewriting.

Dan

WebRankInfo · 8 Mars 2003

moi aussi j'ai voulu limiter Turnitin qui visitait entre 300 et 500 pages par jour. Je l'interdis via le robots.txt depuis le 6 mars à 0h15 heure française, et depuis (à quelques heures près) il ne vient plus me déranger

fupap · 8 Mars 2003

WebRankInfo a dit:
moi aussi j'ai voulu limiter Turnitin qui visitait entre 300 et 500 pages par jour. Je l'interdis via le robots.txt depuis le 6 mars à 0h15 heure française, et depuis (à quelques heures près) il ne vient plus me déranger

oui j'ai vu j'ai pris modele sur ton robots txt que tu donnais dans un autre post :lol:
comme je l'ai rajoute il y a peu de temps(avant hier) je vais attendre. Hier effectivement il n'a pas demande le robots txt

Gilbert Wayenborgh · 9 Mars 2003

Bonjour,

je prends un exemple de configuration chez deepindex.

Le bot va chercher à chaque session d'indexation (elles peuvent durer plusieurs jours) le robots.txt et le stocke ensuite dans une base de données.

Si à la prochaine session celui-ci n'est pas modifié, alors il continue à indexer le site. S'il détecte une nouvelle version du robots.txt alors il prend celui-ci en compte.

Ceci peut expliquer le pourquoi du comment. Il y a donc parfois un décalage de plusieurs jours sur certains robots...

Amicalement

fupap · 9 Mars 2003

merci gilbert
je vais attendre et voir la prochaine fois si il demande le fichier