Robots.txt

WRInaute occasionnel
http://www.danse-africaine.net/robots.txt
j'ai fait un fichier robots.txt
pour bloquer certains robots de visiter le site
1) est ce que la syntaxe est bonne?
parceque turninbot est encore passe aujourd'hui malgre le fichier
2) j'ai bien laisse la porte aux autres?
3) derniere question si je rajoute un autre robot qu'elle est la syntaxe avec plusieurs robots interdits?
merci
 
WRInaute occasionnel
en fait j'ai copie celui de wri qu'olivier donnait dans un post
ce qui me gene c'est que le robot est repasse aujourd'hui et il vient presque tous les jours
ayant lu dans un topic qu'il ne servait a rien, je voulais le bloquer
 
WRInaute discret
Tu peux aller sur le site www.turnitin.com pour comprendre à quoi il sert...

C'est un robot respectueux du fichier robots.txt, comme c'est indiqué ici :
http://www.turnitin.com/robot/crawlerinfo.html

Si ça ne marche pas, tu peux toujours les contacter pour demander à ce que le bot ne visite plus ton site... Lit le document, c'est un modèle de clareté et de transparence, on aimerait voir ça plus souvent...
 
WRInaute passionné
Fupap,

Certains robots ne lisent le fichier robots.txt qu'une fois par jour, parfois même moins souvent.
Heureusement car s'ils devaient le lire chaque fois qu'ils veulent indexer une page, ils doubleraient le nombre de hits.
Laisse passer 24 heures, et vérifie dans tes logs qu'il a bien demandé le robots.txt
Si malgré cela il indexe toujours ton site, tu peux lui interdire l'accès facilement en lui renvoyant un "403 forbidden". C'est décrit en détail dans l'article sur l'URL rewriting.

Dan
 
Olivier Duffez (admin)
Membre du personnel
moi aussi j'ai voulu limiter Turnitin qui visitait entre 300 et 500 pages par jour. Je l'interdis via le robots.txt depuis le 6 mars à 0h15 heure française, et depuis (à quelques heures près) il ne vient plus me déranger :p
 
WRInaute occasionnel
WebRankInfo a dit:
moi aussi j'ai voulu limiter Turnitin qui visitait entre 300 et 500 pages par jour. Je l'interdis via le robots.txt depuis le 6 mars à 0h15 heure française, et depuis (à quelques heures près) il ne vient plus me déranger :p
oui j'ai vu j'ai pris modele sur ton robots txt que tu donnais dans un autre post :lol:
comme je l'ai rajoute il y a peu de temps(avant hier) je vais attendre. Hier effectivement il n'a pas demande le robots txt
 
WRInaute occasionnel
Bonjour,

je prends un exemple de configuration chez deepindex.

Le bot va chercher à chaque session d'indexation (elles peuvent durer plusieurs jours) le robots.txt et le stocke ensuite dans une base de données.

Si à la prochaine session celui-ci n'est pas modifié, alors il continue à indexer le site. S'il détecte une nouvelle version du robots.txt alors il prend celui-ci en compte.

Ceci peut expliquer le pourquoi du comment. Il y a donc parfois un décalage de plusieurs jours sur certains robots...

Amicalement
 
WRInaute occasionnel
merci gilbert
je vais attendre et voir la prochaine fois si il demande le fichier
 
Discussions similaires
Haut