Nouveaux Bots

kendos · 1 Mars 2003

Il semblerait que de nouveaux bots soient apparus dans les logs de certains internautes dans des classes d'adresses inconnues jusqu'a présents.

En faisant une petite étude à ce propos, j'ai pu constitué une liste assez exhaustive des différentes IP utilisées par Googlebot :

http://www.maxhoo.com/crawl.shtm

Quelques questions cependant :

- J'ai toujours été persuadé que crawlx.googlebot.com concernait la "Deep Craw" en opposition à crawlerx.googlebot.com pour le "Fresh Crawl" et que les classes d'IP étaient respectivement 216.239.46.* et 64.68.82.* Comme on peut le voir, il n'en est rien !

- Si l'on considère que ma liste est juste, il y a 2 anomalies pour "crawl7" et "crawl9" qui ont 29 et 21 IP dans leur plage, alors que toutes les autres en ont 20 ou 30. Etonnant de la part de Google ! Néanmoins, le total des bots égal 800. Pile !

- Pour les "crawler", on retrouve les 2 mêmes différences (29, 21) mais la plus grande question est : Ou est donc "crawler19" ?

Kendos
Maxhoo

Jocelyn · 26 Mars 2003

Je n'ai pas compris à quoi servaient les numéros de 1 à 30 présents dans la colonne de gauche. Est-ce lié aux noms des bots (crawlerx, x étant le numéro dans la colonne de gauche ?)
Je n'ai pas compris également pourquoi les plages d'adresses IP n'étaient pas regroupées. Mais peut-être la réponse à ma précédente question explique cette disposition.

Jocelyn

kendos · 26 Mars 2003

# veut dire numéro en anglais :wink:
Donc Crawl # 1 = crawl1.googlebot.com dont la plage d'adresse est de 216.239.46.1 à 216.239.46.30 et ainsi de suite...

Jocelyn · 26 Mars 2003

kendos a dit:
# veut dire numéro en anglais :wink:

Ca j'avais bien compris

kendos a dit:
Donc Crawl # 1 = crawl1.googlebot.com dont la plage d'adresse est de 216.239.46.1 à 216.239.46.30 et ainsi de suite...

Surprenant, je n'avais jamais imaginé que plusieurs adresses IP de crawlers Google avaient en fait le "même nom". Quel est le but ou la raison d'un tel regroupement de plusieurs IP sous le même nom ?

Je vais regarder mes logs une fois de plus pour repérer ça.

Merci pour les précisions, ça n'était pas clair (pour moi)

Jocelyn

hetzeld · 26 Mars 2003

Jocelyn,

Voici une explication du "Round Robin" qui te permettra de comprendre comment plusieurs adresses IP peuvent avoir le même nom de host.

Si plusieurs adresses IP différentes sont associées au même nom de machine (ce qui peut arriver, par exemple dans le cas de services redondants), un serveur DNS donné renverra successivement la première, puis la deuxième et ainsi de suite jusqu'à la dernière, puis il reprendra du début. Ce mécanisme s'appelle le tourniquet (round-robin en anglais) et permet de faire une répartition de charge naturelle entre des machines différentes mais répondant au même nom (ce qui est donc transparent pour l'utilisateur).

Dan

Jocelyn · 26 Mars 2003

Merci Dan pour le rappel de la technique du Round-Robin, l'une des plus simples à mettre en oeuvre. Elle est d'ailleurs abordée dans le Guide sur l'URL rewriting. Ca explique le comment de ma question précédente.

Maintenant, pourquoi ? Là, je n'ai pas compris. On parle des crawlers de Google. Pour moi, que crawlerX vienne plein de fois sur mon site (avec différentes adresses IP), ou que ce soit une alternance de crawlerX, crawlerY et crawlerZ (chacun ayant une seule IP fixe) importe peu.

permet de faire une répartition de charge naturelle entre des machines différentes mais répondant au même nom (ce qui est donc transparent pour l'utilisateur).

Mais dans le cas des crawlers de Google, c'est à sens unique : ils contactent nos serveurs quand ils veulent, récupèrent le contenu et disparaissent.

Jocelyn (un webmaster décidément curieux)