Robots.txt

Discussion dans 'Administration d'un site Web' créé par fupap, 8 Mars 2003.

  1. fupap
    fupap WRInaute occasionnel
    Inscrit:
    14 Novembre 2002
    Messages:
    254
    J'aime reçus:
    0
    http://www.danse-africaine.net/robots.txt
    j'ai fait un fichier robots.txt
    pour bloquer certains robots de visiter le site
    1) est ce que la syntaxe est bonne?
    parceque turninbot est encore passe aujourd'hui malgre le fichier
    2) j'ai bien laisse la porte aux autres?
    3) derniere question si je rajoute un autre robot qu'elle est la syntaxe avec plusieurs robots interdits?
    merci
     
  2. Richard
    Richard WRInaute discret
    Inscrit:
    9 Février 2003
    Messages:
    126
    J'aime reçus:
    0
    Je te suggere plutot ceci :

    User-agent: *
    Disallow:

    User-agent: TurnitinBot
    Disallow: /
     
  3. fupap
    fupap WRInaute occasionnel
    Inscrit:
    14 Novembre 2002
    Messages:
    254
    J'aime reçus:
    0
    en fait j'ai copie celui de wri qu'olivier donnait dans un post
    ce qui me gene c'est que le robot est repasse aujourd'hui et il vient presque tous les jours
    ayant lu dans un topic qu'il ne servait a rien, je voulais le bloquer
     
  4. Richard
    Richard WRInaute discret
    Inscrit:
    9 Février 2003
    Messages:
    126
    J'aime reçus:
    0
    Tu peux aller sur le site www.turnitin.com pour comprendre à quoi il sert...

    C'est un robot respectueux du fichier robots.txt, comme c'est indiqué ici :
    http://www.turnitin.com/robot/crawlerinfo.html

    Si ça ne marche pas, tu peux toujours les contacter pour demander à ce que le bot ne visite plus ton site... Lit le document, c'est un modèle de clareté et de transparence, on aimerait voir ça plus souvent...
     
  5. hetzeld
    hetzeld WRInaute passionné
    Inscrit:
    2 Décembre 2002
    Messages:
    1 603
    J'aime reçus:
    0
    Fupap,

    Certains robots ne lisent le fichier robots.txt qu'une fois par jour, parfois même moins souvent.
    Heureusement car s'ils devaient le lire chaque fois qu'ils veulent indexer une page, ils doubleraient le nombre de hits.
    Laisse passer 24 heures, et vérifie dans tes logs qu'il a bien demandé le robots.txt
    Si malgré cela il indexe toujours ton site, tu peux lui interdire l'accès facilement en lui renvoyant un "403 forbidden". C'est décrit en détail dans l'article sur l'URL rewriting.

    Dan
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 697
    J'aime reçus:
    440
    moi aussi j'ai voulu limiter Turnitin qui visitait entre 300 et 500 pages par jour. Je l'interdis via le robots.txt depuis le 6 mars à 0h15 heure française, et depuis (à quelques heures près) il ne vient plus me déranger :p
     
  7. fupap
    fupap WRInaute occasionnel
    Inscrit:
    14 Novembre 2002
    Messages:
    254
    J'aime reçus:
    0
    oui j'ai vu j'ai pris modele sur ton robots txt que tu donnais dans un autre post :lol:
    comme je l'ai rajoute il y a peu de temps(avant hier) je vais attendre. Hier effectivement il n'a pas demande le robots txt
     
  8. Gilbert Wayenborgh
    Gilbert Wayenborgh WRInaute occasionnel
    Inscrit:
    16 Décembre 2002
    Messages:
    387
    J'aime reçus:
    0
    Bonjour,

    je prends un exemple de configuration chez deepindex.

    Le bot va chercher à chaque session d'indexation (elles peuvent durer plusieurs jours) le robots.txt et le stocke ensuite dans une base de données.

    Si à la prochaine session celui-ci n'est pas modifié, alors il continue à indexer le site. S'il détecte une nouvelle version du robots.txt alors il prend celui-ci en compte.

    Ceci peut expliquer le pourquoi du comment. Il y a donc parfois un décalage de plusieurs jours sur certains robots...

    Amicalement
     
  9. fupap
    fupap WRInaute occasionnel
    Inscrit:
    14 Novembre 2002
    Messages:
    254
    J'aime reçus:
    0
    merci gilbert
    je vais attendre et voir la prochaine fois si il demande le fichier
     
Chargement...
Similar Threads - Robots Forum Date
lien variable à bloquer sur robots Développement d'un site Web ou d'une appli mobile 3 Mai 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
Robots.txt du site Kayak Débuter en référencement 11 Mars 2020
Search Console Indexée malgré le blocage dans robots.txt Crawl et indexation Google, sitemaps 26 Février 2020
Search Console Prestashop | Robot.txt bloque des URL mais Outil de test du fichier robots.txt l'Authorise... Crawl et indexation Google, sitemaps 21 Novembre 2019
Search Console Images bloquées ... malgré absence de robots.txt Crawl et indexation Google, sitemaps 31 Octobre 2019
Aide sur le format de mon fichier robots.txt Crawl et indexation Google, sitemaps 25 Octobre 2019
Problèmes d'indexation et robots.txt Crawl et indexation Google, sitemaps 14 Octobre 2019
Réécriture et robots.txt Débuter en référencement 10 Octobre 2019
Page de test et fichier Robots.txt Crawl et indexation Google, sitemaps 9 Octobre 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice