GoogleBot crawle trop vite :((

Discussion dans 'Crawl et indexation Google, sitemaps' créé par achaternet, 26 Mars 2005.

  1. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    Bonjour,

    Je viens de constater, que ce matin googlebot est passe 25 fois en 1 minutes

    ça commence a etre trop....

    De plus 3 connexions simultanées, la c est TROP :!:

    dans robots.txt, vous croyez que ça irait?:

    User-agent: Googlebot
    Crawl-delay: 20


    Comment lui dire, vas y cool, sans penaliser le nombre de pages crawlees dans la journee.

    Merci
     
  2. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
    en effet

    ça permettrait à mon script anti aspirateur d'eviter de bannir son ip :lol:


    je ne connaissait pas cette fonction dans le robots.txt

    Crawl-delay: 20

    tu es sur que ça existe? que ça marche?


    ça ne risque pas de pénaliser?


    j'attend vos réponses

    merci a vous :D
     
  3. cthierry
    cthierry WRInaute passionné
    Inscrit:
    15 Janvier 2005
    Messages:
    2 361
    J'aime reçus:
    90
  4. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
  5. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
    Code:
    http status: 200 OK
    
    Syntax check robots.txt on http://www.adojeunz.com/robots.txt (1725 bytes)
    Line	Severity	Code
    53	ERROR	Invalid fieldname:
    Crawl-delay: 20
     We're sorry, this robots.txt does NOT validate.
     Warnings Detected: 0
     Errors Detected: 1
    
     
    robots.txt source code for http://www.adojeunz.com/robots.txt
    Line	Code
     1 	 User-agent: Mediapartners-Google*
     2 	 Disallow:
     3 	 
     4 	 User-agent: *
     5 	 Disallow: /nancy
     6 	 Disallow: /banni
     7 	 Disallow: /viewtopic.php
     8 	 Disallow: /viewforum.php
     9 	 Disallow: /memberlist.php
     10 	 Disallow: /login.php
     11 	 Disallow: /faq.php
     12 	 Disallow: /modcp.php
     13 	 Disallow: /posting.php
     14 	 Disallow: /privmsg.php
     15 	 Disallow: /search.php
     16 	 Disallow: /viewonline.php
     17 	 Disallow: /profile.php
     18 	 Disallow: /groupcp.php
     19 	 Disallow: /newtopic
     20 	 Disallow: /setopic
     21 	 Disallow: /stopic
     22 	 Disallow: /ntopic
     23 	 Disallow: /ptopic
     24 	 Disallow: /ftopic1
     25 	 Disallow: /ftopic2
     26 	 Disallow: /ftopic3
     27 	 Disallow: /ftopic4
     28 	 Disallow: /ftopic5
     29 	 Disallow: /ftopic6
     30 	 Disallow: /ftopic7
     31 	 Disallow: /ftopic8
     32 	 Disallow: /ftopic9
     33 	 Disallow: /airsoft/viewtopic.php
     34 	 Disallow: /airsoft/viewforum.php
     35 	 Disallow: /airsoft/memberlist.php
     36 	 Disallow: /airsoft/login.php
     37 	 Disallow: /airsoft/faq.php
     38 	 Disallow: /airsoft/modcp.php
     39 	 Disallow: /airsoft/posting.php
     40 	 Disallow: /airsoft/privmsg.php
     41 	 Disallow: /airsoft/search.php
     42 	 Disallow: /airsoft/viewonline.php
     43 	 Disallow: /airsoft/profile.php
     44 	 Disallow: /airsoft/groupcp.php
     45 	 Disallow: /airsoft/newtopic
     46 	 Disallow: /airsoft/setopic
     47 	 Disallow: /airsoft/stopic
     48 	 Disallow: /airsoft/profile
     49 	 Disallow: /airsoft/ntopic
     50 	 Disallow: /airsoft/ptopic
     51 	 
     52 	 User-agent: Slurp
     53 	 Crawl-delay: 20
     54 	 
     55 	 User-agent: pompos
     56 	 Disallow: /
     57 	 
     58 	 User-agent: turnitinbot
     59 	 Disallow: /
     60 	 
     61 	 User-agent: QuepasaCreep
     62 	 Disallow: /
     63 	 
     64 	 User-agent: NPBot
     65 	 Disallow: /
     66 	 
     67 	 User-agent: ConveraMultiMediaCrawler
     68 	 Disallow: /
     69 	 
     70 	 User-agent: linkwalker
     71 	 Disallow: /
     72 	 
     73 	 User-agent: NPBot-1/2.0
     74 	 Disallow: /
     75 	 
     76 	 User-agent: NPBot-1/2.0 (http://www.nameprotect.com/botinfo.html)
     77 	 Disallow: /
     78 	 
     79 	 User-agent: Steeler
     80 	 Disallow: /
     81 	 
     82 	 User-agent: minibot(NaverRobot)/1.0
     83 	 Disallow: /
     84 	 
     85 	 User-agent: linksmanager
     86 	 Disallow: /
     87 	 
     88 	 User-agent: Wget
     89 	 Disallow: /
     90 	 
     91 	 User-agent: IRLbot
     92 	 Disallow: /
     
  6. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    :lol: :lol:

    c est de là que je me suis inspire.

    vu avec Slurp.

    Moi aussi, Ohax, c est pour un complement d un script perso qui bloque les pompeurs fous, ... et dans mon cas de ce matin, google etait vraiment trop limite.
     
  7. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
  8. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    bon, j'ai mis:

    car msnbot utilise aussi crawl-delay
    (cf -http://search.sympatico.msn.ca/docs/siteowner.aspx?t=SEARCH_WEBMASTER_REF_RestrictAccessToSite.htm&setlang=fr-CA&FORM=LTWM tout en bas )


    Ainsi, j'ai de gros doutes sur -http://www.searchengineworld.com/cgi-bin/robotcheck.cgi ...

    Je vais regarder si ca va mieux dans 24h.

    Si qq1 a des infos sur Crawl-delay et googlebot, dite le ! ;)
     
  9. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
    je vient d'effectuer ma même modification

    on ce tient tous au grain
     
  10. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    Vu que ca patoge, et je veux en finir rapidement,

    :arrow: je leur ecris sur leur support.

    on verra bien.

    Remarque, rapidement une reponse de leur part, j en doute :D :D
     
  11. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
    tient nous au courant dans ce topic stp


    merci à toi ;-)
     
  12. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    allez admirer:

    /Gastronomie-38.html 200 [03-26]
    09:14:16 1 66.249.71.32 crawl-66-249-71-32.googlebot.com
    54 /Musique-60.html 200 [03-26]
    09:14:16 1 66.249.64.55 crawl-66-249-64-55.googlebot.com
    55 /Achats%20en%20ligne-1.html 200 [03-26]
    09:14:17 1 66.249.64.68 crawl-66-249-64-68.googlebot.com
    56 /Anal-198.html 200 [03-26]
    09:14:17 1 66.249.64.58 crawl-66-249-64-58.googlebot.com
    57 /Motel-200.html 200 [03-26]
    09:14:17 1 66.249.71.29 crawl-66-249-71-29.googlebot.com
    58 /Football-268.html 200 [03-26]
    09:14:18 1 66.249.71.69 crawl-66-249-71-69.googlebot.com

    :evil: :evil: :evil:
     
  13. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
    09:14:18


    tu as fait la modif

    il nous reste juste à attendre :D

    dans ton cas ils sont venu à plusieurs (ip)
     
  14. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    La fonction Crawl-delay ne marche pas avec ggbot, la preuve:

    [03-26] 16:16:21
    [03-26] 16:16:19
    [03-26] 16:16:08
    [03-26] 16:16:06
    [03-26] 16:16:03


    chiotte
     
  15. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
    mmm ça veu rien dire ;-)


    il faudrai des stats complets sur plusieurs minutes
     
  16. Shift-Zone
    Shift-Zone Nouveau WRInaute
    Inscrit:
    31 Mars 2005
    Messages:
    45
    J'aime reçus:
    0
    Pour ma part je pense qu'il ne faut pas abuser avec le fichier robots.txt.
    A nouveau il faut avoir à l'esprit que chaque ligne ajoutée représente du traitement supplémentaire pour le serveur. Donc quoi qu'il arrive (que ce soit un bot ou un visiteur) le fichier est parcouru et comme le plus souvent ce n'est pas un bot c'est pour rien !

    Cette solution impose de préciser le délai pour chaque agent de recherche et quand on voit le nombre de moteurs de recherche existant ...

    Si quelqu'un peut donner des chiffres sur l'overhead généré ca m'intéresse !
     
  17. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    Non :!:

    seul les moteurs utilisent le robots.txt, et eventuellement certains aspirateurs avec un minimum de respect. :wink:
     
  18. Shift-Zone
    Shift-Zone Nouveau WRInaute
    Inscrit:
    31 Mars 2005
    Messages:
    45
    J'aime reçus:
    0
    robots.txt

    exact !

    J'étais distrait sur ce coup là, j'avais .htaccess en tête ...
    Sorry pour la fausse info.
     
  19. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    Bon, enfin une reponse de google:

    Mouai, pas trop de detail...

    De plus, si ils font au cas par cas, ils n ont pas finis de recevoir des plaintes.

    Vi, je pense aussi a vous autres :wink:

    Et aucune infos, aucun code pour le faire ralentir.

    Tout ce que j espere, c est que googlebot passera autant qu avant...

    C est sans doute un pb de non synchrosation de leurs bots,

    cad, ce que j entends par là, c est :

    serveur no 1 crawl un domaine
    serveur no 2 crawl le meme domaine et NE COMMUNIQUE PAS entre eux, pour ne pas lancer des crawls simultanes de ce domaine.

    Ainsi, de facon aleatoire, donc, par moment, TROP de connexions simultanee :twisted: :twisted:
     
  20. achaternet
    achaternet WRInaute discret
    Inscrit:
    11 Février 2003
    Messages:
    222
    J'aime reçus:
    0
    User-agent: Googlebot
    Crawl-delay: 20


    Ne SERT A RIEN.

    Voici donc ce que je leur avais ecrit:


    Il faut savoir aussi, que googlebot et autre ne pouvait pas faire plus, puisque le 60gp chez ovh est 3 conn simult bdd :!:
     
  21. nautiljon
    nautiljon WRInaute discret
    Inscrit:
    23 Mars 2005
    Messages:
    204
    J'aime reçus:
    0
    euh, moi c'est pas google mais Slurp (Inktomi) qui m'a fait une surprise ce soir, jusqu'a aujourd'hui il venait entre 0 et 10 fois par jour, et la 1550pages en 6min soit environs 258pages/min o_o, le pire c'est que mon script a 50p/min l'a pas bloqué zarb.
    Le Crawl-delay ne fontionne pas si j'ai bien lu :S y'a une solution ?
     
  22. Ohax
    Ohax WRInaute accro
    Inscrit:
    5 Juillet 2004
    Messages:
    4 900
    J'aime reçus:
    0
    ils viennent à plusieurs (plusieurs ips)
     
  23. nautiljon
    nautiljon WRInaute discret
    Inscrit:
    23 Mars 2005
    Messages:
    204
    J'aime reçus:
    0
    Ah wé ! j'avais pas tilté, y'a plusieurs centaines d'ip rien que pour lui !
     
  24. Cyberbiz
    Cyberbiz Nouveau WRInaute
    Inscrit:
    26 Août 2004
    Messages:
    2
    J'aime reçus:
    0
    Cette fonction marche t'elle sinon pour slurp ?

    Quelqu'un a t'il un resultat fiable ?

    Code:
    User-agent: Slurp
    Crawl-delay: 40
     
  25. Albert1
    Albert1 WRInaute impliqué
    Inscrit:
    23 Août 2005
    Messages:
    771
    J'aime reçus:
    0
    Totalement inutile !
    je viens d'avoir confirmation par mail de Google que googlebot ne reconnaît pas cette commande !
    :roll:
     
Chargement...
Similar Threads - GoogleBot crawle Forum Date
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps 24 Janvier 2021
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
Googlebot crawle-t-il les onglets d'une div en style="display:none" ? Crawl et indexation Google, sitemaps 26 Août 2014
CRAWLER GOOGLEBOT / ROBOT.txt et META ROBOT Débuter en référencement 31 Août 2012
GoogleBot crawle des pages partenaires inexistantes Crawl et indexation Google, sitemaps 30 Avril 2011
Crawlé à 99% par googlebot-mobile, 1% par googlebot? Crawl et indexation Google, sitemaps 11 Juillet 2010
_trackEvent créé des URLs fictives que Googlebot crawle ? Google Analytics 13 Juillet 2009
GoogleBot passe mais ne crawle qu'une page ! Débuter en référencement 18 Avril 2005
GoogleBot ne vient plus crawler mon site ! Crawl et indexation Google, sitemaps 23 Septembre 2004
Crawler 135 de Googlebot (classique ou Mediapartner ?) Problèmes de référencement spécifiques à vos sites 6 Septembre 2004
Probleme ? crawler15.googlebot s'arrete a ma page index Crawl et indexation Google, sitemaps 7 Octobre 2003
Titre du site [crawler10.googlebot.com] Crawl et indexation Google, sitemaps 31 Mai 2003
Crawl et crawler googlebot ? Crawl et indexation Google, sitemaps 9 Mai 2003
Qu'est ce donc ? (crawler11.googlebot.com) Crawl et indexation Google, sitemaps 21 Février 2003
Les liens nofollow sont quand même suivis par Googlebot Débuter en référencement 27 Mai 2021
Voir une page (entière) comme Googlebot Développement d'un site Web ou d'une appli mobile 27 Mars 2021
Fréquence passage googlebot Crawl et indexation Google, sitemaps 30 Janvier 2021
Comment augmenter la fréquence de passage de GoogleBot Crawl et indexation Google, sitemaps 10 Décembre 2019
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019