Crawl et crawler googlebot ?

WRInaute impliqué
J'ai un certain nombre de "crawl" et de "crawler" qui sont passés récemment sur mon site, que je ne trouve pas dans les listes habituelles des IP des bots Google.

Plus étrange, certains, qui se comportent comme des fresh bots, ne s'appellent pas "crawler" mais "crawl".

Exemple 1 :
64.68.80.157 2003/05/07 07:19 crawl25.googlebot.com

Exemple 2:
64.68.84.137 2003/05/03 21:39 crawl13.googlebot.com

Exemple 3:
64.68.84.43 2003/05/03 21:37 crawl11.googlebot.com

Pour l'anecdocte le crawler11 était passé quelques heures avant

Quelqu'un a-t'il des lumières pour m'éclairer ? Ces crawl(er) là ont-ils quelque chose de spécial ?
 
WRInaute impliqué
Tiens, encore deux nouveaux ce matin...

Toujours personne pour éclairer ma lanterne ?

64.68.80.71 2003/05/10 07:18 crawl24.googlebot.com
64.68.80.69 2003/05/10 04:19 crawl24.googlebot.com

64.68.80.203 2003/05/10 07:13 crawl27.googlebot.com

Je précise que les "crawlers" normaux continuent à passer (crawler 12 par exemple)
 
WRInaute impliqué
Cela démontre bien que google change de méthode pour sa mise à jour car avant crawlxx.googlebot.com désignait un bot du fullcrawl 216.xx alors que crawlerxx.googlebot.com désignait le freshbot 64.xx
 
WRInaute passionné
Cela doit faire environ deux mois que de nouveaux crawlxx et crawlerxx sont apparus.
C'est vrai qu'on se rend compte que certains bots en IP 64xxx se comportent maintenant comme se comportaient précédemment les deepcrawlers 216. Cela commence à devenir un peu confus ...

Dan
 
WRInaute impliqué
Après recherches, les crawl24, 25 26 et 27 passent sur certains sites depuis plusieurs mois...

Sur webmasterworld, j'ai trouvé un thread du 1er mars sur le meme sujet. Il apparait dans des stats de sites de février 2003.

Par contre, nos amis américains n'ont pas réussi à s'entendre visiblement sur leur statut (fresh ou deep)

Trois hypothèses à vérifier :

1°) Ces crawlxx sont aussi des freshbots (ce que laisse penser leur comportement, le moment où ils passent etc.). Donc il faut se fier aux IP, pas à la dénomination "crawl" ou "crawler". Et il faut corriger les listes publiées ça et là, parce que qu'elles sont archi fausses.

2°) Ces crawlxx sont des deepbots. Alors là, c'est une révolution, parce que cela veut dire que je fais l'objet d'un deepcrawl en ce moment... ce qui serait étonnant

3°) Ces crawlxx sont des bots "spéciaux". Par exemple, ils servent à compléter l'index en dehors des périodes de full crawl...
 
WRInaute passionné
Le problème actuel est que Google prend une direction qui n'a encore rien d'officiel et pour laquelle tout le monde se perd en conjectures... Il faudra attendre la fin (ou le début :wink: ) de la dance de mai pour espérer y voir plus clair.
Peut-être qu'à l'heure actuelle les DeepCrawlers font déjà partie d'une époque révolue et qu'il n'y aura plus que des passages de simples bots, comme sur les autres moteurs ???

Dan
 
WRInaute impliqué
Idem pour moi, visite de crawl26 pour la 1ère fois. :?:

Par contre, les listes comme celle que j'ai constitué ne sont pas fausses dans l'absolu. Ce qu'il ne faut pas associer sytématiquement c'est Deep+Crawl et Fresh+Crawler, mais les plages d'adresses et noms restent valables.

Kendos

http://www.maxhoo.com/crawl.shtm
 
Olivier Duffez (admin)
Membre du personnel
en tout cas quand on aura compris quelque chose précisément, il faudra que je fasse des modifs dans GoogleStats sinon les utilisateurs ne vont pas comprendre grand chose...
 
WRInaute impliqué
kendos a dit:
Par contre, les listes comme celle que j'ai constitué ne sont pas fausses dans l'absolu. Ce qu'il ne faut pas associer sytématiquement c'est Deep+Crawl et Fresh+Crawler, mais les plages d'adresses et noms restent valables.

Tiens, justement je pensais à la tienne :lol:

Il va falloir pourtant que tu ajoutes quelques adresses IP...

Quand à l'histoire des Deep et Fresh, décider que crawl27 est un fresh bot, c'est peut-être gonflé vu notre niveau d'information actuel...

Tu fais ce que tu veux, mais pour l'instant je les classe dans les hermaphrodites... :lol:
 
WRInaute impliqué
Tout à fait d'accord, c'est pour cela que je n'ai jamais mentionné la notion de Deep ou Fresh...

Par contre, je vais approfondir coté Google Image, Froogle etc...

Pour les nouveaux bots, cette liste ne demande qu'a être compléter...un bon geste Caribou... :D
 
WRInaute impliqué
Ce n'est pas ta page "crawl.shtm" qu'il faut revoir, plutôt la deepbots.shtml et freshbots.shtml :wink:

kendos a dit:
...un bon geste Caribou... :D

Je ne sais pas quel geste tu attends ? Parce que j'ai déjà donné les IP des nouveaux bots détectés. Et les IP sont bien dans la page que tu communiques (crawl.shtm)

Quoique... J'ai autre GooVNI à te donner... Un truc que tout le monde ne doit pas voir passer :

Nokia-WAPToolkit/1.2 googlebot(at)googlebot.com 64.68.86.184 2003/05/10 03:28 crawler5.googlebot.com

C'est le Googlebot spécial "sites wap"
 
WRInaute discret
Bonsoir,

Ces fameux nv crawl continue a passer sur mon site.
Et on retrouve la tendance de SJ et FI c'est a dire une indexation des pages datant du mois de mars.... Avant la mise en place de l'url Rewriting....

Affaire a suivre 8O

STéphane
 
WRInaute occasionnel
c'est ce que je me disais aussi..

pourquoi il me recrawl mes anciennes urls!..
8O


dominic !! reveilles toi !...

t'as encore fait guinze ?
 
WRInaute impliqué
Oui, moi aussi, j'ai revu crawl23 dans mes logs hiers...

Et quelques heures avant crawler11, 12, et 13

Et ce matin crawler 10 et 11

Crawl 23 se comporte plus comm un fresh crawler, pas comme un deep crawler... Mais il faudrait analyser les pages aspirées pour savoir si ce "crawl" n'a pas un comportement particulier
 
Discussions similaires
Haut