GoogleBot crawle trop vite :((

WRInaute discret
Bonjour,

Je viens de constater, que ce matin googlebot est passe 25 fois en 1 minutes

ça commence a etre trop....

De plus 3 connexions simultanées, la c est TROP :!:

dans robots.txt, vous croyez que ça irait?:

User-agent: Googlebot
Crawl-delay: 20


Comment lui dire, vas y cool, sans penaliser le nombre de pages crawlees dans la journee.

Merci
 
WRInaute accro
en effet

ça permettrait à mon script anti aspirateur d'eviter de bannir son ip :lol:


je ne connaissait pas cette fonction dans le robots.txt

Crawl-delay: 20

tu es sur que ça existe? que ça marche?


ça ne risque pas de pénaliser?


j'attend vos réponses

merci a vous :D
 
WRInaute accro
Code:
http status: 200 OK

Syntax check robots.txt on http://www.adojeunz.com/robots.txt (1725 bytes)
Line	Severity	Code
53	ERROR	Invalid fieldname:
Crawl-delay: 20
 We're sorry, this robots.txt does NOT validate.
 Warnings Detected: 0
 Errors Detected: 1

 
robots.txt source code for http://www.adojeunz.com/robots.txt
Line	Code
 1 	 User-agent: Mediapartners-Google*
 2 	 Disallow:
 3 	 
 4 	 User-agent: *
 5 	 Disallow: /nancy
 6 	 Disallow: /banni
 7 	 Disallow: /viewtopic.php
 8 	 Disallow: /viewforum.php
 9 	 Disallow: /memberlist.php
 10 	 Disallow: /login.php
 11 	 Disallow: /faq.php
 12 	 Disallow: /modcp.php
 13 	 Disallow: /posting.php
 14 	 Disallow: /privmsg.php
 15 	 Disallow: /search.php
 16 	 Disallow: /viewonline.php
 17 	 Disallow: /profile.php
 18 	 Disallow: /groupcp.php
 19 	 Disallow: /newtopic
 20 	 Disallow: /setopic
 21 	 Disallow: /stopic
 22 	 Disallow: /ntopic
 23 	 Disallow: /ptopic
 24 	 Disallow: /ftopic1
 25 	 Disallow: /ftopic2
 26 	 Disallow: /ftopic3
 27 	 Disallow: /ftopic4
 28 	 Disallow: /ftopic5
 29 	 Disallow: /ftopic6
 30 	 Disallow: /ftopic7
 31 	 Disallow: /ftopic8
 32 	 Disallow: /ftopic9
 33 	 Disallow: /airsoft/viewtopic.php
 34 	 Disallow: /airsoft/viewforum.php
 35 	 Disallow: /airsoft/memberlist.php
 36 	 Disallow: /airsoft/login.php
 37 	 Disallow: /airsoft/faq.php
 38 	 Disallow: /airsoft/modcp.php
 39 	 Disallow: /airsoft/posting.php
 40 	 Disallow: /airsoft/privmsg.php
 41 	 Disallow: /airsoft/search.php
 42 	 Disallow: /airsoft/viewonline.php
 43 	 Disallow: /airsoft/profile.php
 44 	 Disallow: /airsoft/groupcp.php
 45 	 Disallow: /airsoft/newtopic
 46 	 Disallow: /airsoft/setopic
 47 	 Disallow: /airsoft/stopic
 48 	 Disallow: /airsoft/profile
 49 	 Disallow: /airsoft/ntopic
 50 	 Disallow: /airsoft/ptopic
 51 	 
 52 	 User-agent: Slurp
 53 	 Crawl-delay: 20
 54 	 
 55 	 User-agent: pompos
 56 	 Disallow: /
 57 	 
 58 	 User-agent: turnitinbot
 59 	 Disallow: /
 60 	 
 61 	 User-agent: QuepasaCreep
 62 	 Disallow: /
 63 	 
 64 	 User-agent: NPBot
 65 	 Disallow: /
 66 	 
 67 	 User-agent: ConveraMultiMediaCrawler
 68 	 Disallow: /
 69 	 
 70 	 User-agent: linkwalker
 71 	 Disallow: /
 72 	 
 73 	 User-agent: NPBot-1/2.0
 74 	 Disallow: /
 75 	 
 76 	 User-agent: NPBot-1/2.0 (http://www.nameprotect.com/botinfo.html)
 77 	 Disallow: /
 78 	 
 79 	 User-agent: Steeler
 80 	 Disallow: /
 81 	 
 82 	 User-agent: minibot(NaverRobot)/1.0
 83 	 Disallow: /
 84 	 
 85 	 User-agent: linksmanager
 86 	 Disallow: /
 87 	 
 88 	 User-agent: Wget
 89 	 Disallow: /
 90 	 
 91 	 User-agent: IRLbot
 92 	 Disallow: /
 
WRInaute discret
cthierry a dit:
En tout les cas cette fonction existe pour Yahoo Slurp:

https://www.webrankinfo.com/dossiers/autres-moteurs

:lol: :lol:

c est de là que je me suis inspire.

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

mon robots.txt à une erreur avec ces deux lignes en plus

vu avec Slurp.

Moi aussi, Ohax, c est pour un complement d un script perso qui bloque les pompeurs fous, ... et dans mon cas de ce matin, google etait vraiment trop limite.
 
WRInaute discret
bon, j'ai mis:

User-agent: Googlebot
Crawl-delay: 10
User-agent: msnbot
Crawl-delay: 10
User-agent: Slurp
Crawl-delay: 10

car msnbot utilise aussi crawl-delay
(cf -http://search.sympatico.msn.ca/docs/siteowner.aspx?t=SEARCH_WEBMASTER_REF_RestrictAccessToSite.htm&setlang=fr-CA&FORM=LTWM tout en bas )


Ainsi, j'ai de gros doutes sur -http://www.searchengineworld.com/cgi-bin/robotcheck.cgi ...

Je vais regarder si ca va mieux dans 24h.

Si qq1 a des infos sur Crawl-delay et googlebot, dite le ! ;)
 
WRInaute discret
Vu que ca patoge, et je veux en finir rapidement,

:arrow: je leur ecris sur leur support.

on verra bien.

Remarque, rapidement une reponse de leur part, j en doute :D :D
 
WRInaute discret
allez admirer:

/Gastronomie-38.html 200 [03-26]
09:14:16 1 66.249.71.32 crawl-66-249-71-32.googlebot.com
54 /Musique-60.html 200 [03-26]
09:14:16 1 66.249.64.55 crawl-66-249-64-55.googlebot.com
55 /Achats%20en%20ligne-1.html 200 [03-26]
09:14:17 1 66.249.64.68 crawl-66-249-64-68.googlebot.com
56 /Anal-198.html 200 [03-26]
09:14:17 1 66.249.64.58 crawl-66-249-64-58.googlebot.com
57 /Motel-200.html 200 [03-26]
09:14:17 1 66.249.71.29 crawl-66-249-71-29.googlebot.com
58 /Football-268.html 200 [03-26]
09:14:18 1 66.249.71.69 crawl-66-249-71-69.googlebot.com

:evil: :evil: :evil:
 
WRInaute accro
09:14:18


tu as fait la modif

il nous reste juste à attendre :D

dans ton cas ils sont venu à plusieurs (ip)
 
WRInaute discret
La fonction Crawl-delay ne marche pas avec ggbot, la preuve:

[03-26] 16:16:21
[03-26] 16:16:19
[03-26] 16:16:08
[03-26] 16:16:06
[03-26] 16:16:03


chiotte
 
Nouveau WRInaute
Pour ma part je pense qu'il ne faut pas abuser avec le fichier robots.txt.
A nouveau il faut avoir à l'esprit que chaque ligne ajoutée représente du traitement supplémentaire pour le serveur. Donc quoi qu'il arrive (que ce soit un bot ou un visiteur) le fichier est parcouru et comme le plus souvent ce n'est pas un bot c'est pour rien !

Cette solution impose de préciser le délai pour chaque agent de recherche et quand on voit le nombre de moteurs de recherche existant ...

Si quelqu'un peut donner des chiffres sur l'overhead généré ca m'intéresse !
 
WRInaute discret
Shift-Zone a dit:
Donc quoi qu'il arrive (que ce soit un bot ou un visiteur) le fichier est parcouru et comme le plus souvent ce n'est pas un bot c'est pour rien ! !

Non :!:

seul les moteurs utilisent le robots.txt, et eventuellement certains aspirateurs avec un minimum de respect. :wink:
 
WRInaute discret
Bon, enfin une reponse de google:

Nous vous remercions d'avoir attiré notre attention sur ce fait. Nous
avons réduit la charge sur vos serveurs. Nous vous prions de nous
excuser
pour le désagrément occasionné et vous remercions de votre patience.
N'hésitez pas à nous contacter pour toutes questions supplémentaires.

Cordialement,
L'équipe Google

Mouai, pas trop de detail...

De plus, si ils font au cas par cas, ils n ont pas finis de recevoir des plaintes.

Vi, je pense aussi a vous autres :wink:

Et aucune infos, aucun code pour le faire ralentir.

Tout ce que j espere, c est que googlebot passera autant qu avant...

C est sans doute un pb de non synchrosation de leurs bots,

cad, ce que j entends par là, c est :

serveur no 1 crawl un domaine
serveur no 2 crawl le meme domaine et NE COMMUNIQUE PAS entre eux, pour ne pas lancer des crawls simultanes de ce domaine.

Ainsi, de facon aleatoire, donc, par moment, TROP de connexions simultanee :twisted: :twisted:
 
WRInaute discret
User-agent: Googlebot
Crawl-delay: 20


Ne SERT A RIEN.

Voici donc ce que je leur avais ecrit:


Bonjour,

Googlebot passe de maniere trop rapproche.

Exemple pour ce matin: 25 pages en 1 minute

3 connexions simultanées!

Avez vous un truc comme yahoo : Crawl-delay dans le robots.txt ?

Que dois je faire?

voici quelques logs:

....

Il faut savoir aussi, que googlebot et autre ne pouvait pas faire plus, puisque le 60gp chez ovh est 3 conn simult bdd :!:
 
WRInaute discret
euh, moi c'est pas google mais Slurp (Inktomi) qui m'a fait une surprise ce soir, jusqu'a aujourd'hui il venait entre 0 et 10 fois par jour, et la 1550pages en 6min soit environs 258pages/min o_o, le pire c'est que mon script a 50p/min l'a pas bloqué zarb.
Le Crawl-delay ne fontionne pas si j'ai bien lu :S y'a une solution ?
 
Nouveau WRInaute
Cette fonction marche t'elle sinon pour slurp ?

Quelqu'un a t'il un resultat fiable ?

Code:
User-agent: Slurp
Crawl-delay: 40
 
Discussions similaires
Haut