Des bots spéciaux pour les pages d'accueil ?

Mirgolth · 13 Août 2003

Bonjour,

Depuis quelque temps j'ai l'impression qu'il y a des bots qui sont spécialisés pour les pages d'accueil ( je parle ici de la requête GET / sur un Host )
C'est ce genre de stats qui m'ont attiré l'oeil :

Robotstats 13/08 a dit:
Adresses IP de GoogleBot :
[187] 64.68.82.133
[189] 64.68.82.135
[213] 64.68.82.136
[211] 64.68.82.137
[225] 64.68.82.141
[189] 64.68.82.142
[206] 64.68.82.143
[207] 64.68.82.163
[192] 64.68.82.164
[__1] 64.68.82.170
[193] 64.68.82.176
[172] 64.68.82.178
[228] 64.68.82.181
[206] 64.68.82.25
[211] 64.68.82.26
[165] 64.68.82.27
[183] 64.68.82.37
[192] 64.68.82.41
[194] 64.68.82.45
[221] 64.68.82.46
[_95] 64.68.82.50
[_81] 64.68.82.52
[105] 64.68.82.54
[_97] 64.68.82.55
[223] 64.68.82.65
[206] 64.68.82.77
[197] 64.68.82.78
[200] 64.68.82.79

Une seule page crawlé par ce bot : L'accueil !

Voilà une liste d'@ IP de bot qui n'ont été voir que ma page d'accueil ( et le robots.txt ):

64.68.82.7
64.68.85.10
64.68.82.14
64.68.82.28
64.68.82.167
64.68.82.168
64.68.82.169
64.68.82.170

Observez vous le même phénomène et qu'en pensez vous ?

Mirgolth

xicor · 13 Août 2003

salut Mirgolth,

J'observe le même phénomène chez moi.

le bot n'a été voir que ma page d'accueil malgré des liens vers mes pages "secondaires"

IP: 64.68.82.168 - 64.68.82.41 - 64.68.82.18

xicor

loupeti · 13 Août 2003

on pourrai faire une grande liste

64.68.82.7
64.68.82.28
64.68.82.38
64.68.82.168
64.68.82.169

pour moi depuis le début du mois

donc j'ajoute a la liste :

64.68.82.7
64.68.85.10
64.68.82.14
64.68.82.18
64.68.82.28
64.68.82.38
64.68.82.41
64.68.82.167
64.68.82.168
64.68.82.169
64.68.82.170

allez continuer la liste !

Mirgolth · 13 Août 2003

loupetiart a dit:
allez continuer la liste !

Tu observe un comportement similaire, à savoir des bots qui crawl exclusivement la racine d'un site ? (les autres pages étant bien crawlées mais par d'autre adressses )

Je me demandais si ce n'était pas simplement une conséquense de la structure pyramidale des sites...

Mirgolth

loupeti · 13 Août 2003

oui j'observe la même chose,
par contre maintenant il faudrai aller voir si la liste d'adresse ci dessus se retrouve pour d'autre page que la page d'accueil chez les autres...

Qaghan · 13 Août 2003

Personnellement je rejetterais 41 car il a crawle 192 fois les pages de Mirgolth...

Olivier,

Mirgolth · 14 Août 2003

Adam-Xero a dit:
Même phénomene chez moi.

Non, ça c'est standard : Seule ta page accueil à un PR suffissant pour être crawlée quotidiennement.

Le phénomène que j'essaye d'analyser concerne les adresses IP des bot qui passent sur les pages d'acceuil pas la fréquence de passage ni, le nombre ne pages crawlées par jour.

Mirgolth

loupeti · 14 Août 2003

- 41

64.68.82.7
64.68.85.10
64.68.82.14
64.68.82.18
64.68.82.28
64.68.82.38
64.68.82.167
64.68.82.168
64.68.82.169
64.68.82.170

Quelles sorte d'outil pourrait t'on dévelloper avec ces infos ? Vous avez des idées ?

ffaucouneau · 14 Août 2003

Ce qui est rigolo c'est qu'avec un simple PageRank de 3 et 2 sur les premier niveau, Google visite ma page d'accueil tous les jours.

Il la met en cache du jour au lendemain 'je ne suis connaissais pas cette rapidité).

Bref, je ne l'ai jamais vu aussi en forme GG.

Suede · 14 Août 2003

Mirgolth a dit:
Bonjour,

Depuis quelque temps j'ai l'impression qu'il y a des bots qui sont spécialisés pour les pages d'accueil ( je parle ici de la requête GET / sur un Host )

Observez vous le même phénomène et qu'en pensez vous ?

Mirgolth

Salut,

Comment définir une page d'accueil et est-ce que cette notion a un sens pour Google ?
Une page avec un lien externe?
La page à la racine du site? (Que dire des sites sur hébergement gratuit).
La page par défaut d'un répertoire (certains n'en ont pas)?

François

Mirgolth · 14 Août 2003

loupetiart a dit:
Quelles sorte d'outil pourrait t'on dévelloper avec ces infos ? Vous avez des idées ?

Déjà il faudrait voir si c'est vérifé ou si c'est juste une coincidence. Je ne conçerve que 1 mois de logs sinon ma base dépasse les 25Megs. La periode est trop courte pour généraliser.

Suede a dit:
Comment définir une page d'accueil et est-ce que cette notion a un sens pour Google ?

J'y ai pensé aussi, et la racine d'un domaine est tout ce que Google peut distinguer.

Pourquoi / et pas /index.html ? parce que c'est comme ça sur le net il y a des conventions.

Pour ce qui est des sites chez des hebergeurs gratuits (au hasard Lycos :wink: ) et bien tant pis pour eux. Mais c'est déjà le cas aujourd'hui : lorsque tu fais une recherche, 2 sites chez wanadoo ou lycos sont considèrer comme faisant partie du même site ( cf le décalage de la 2nde URL ). Essaye de faire une recherche sur le site courant dans la toolbar sur un site hébergé dans un répertoire et tu auras les résultats sur tous les sites herbergés.

Je n'affirme rien mais je constate. Dans mes logs RS certaines IP passent et repassent mais uniquement sur /... alors j'essayes de comprendre pourquoi.

Mirgolth

Suede · 14 Août 2003

Salut,

Uniquement sur / ou aussi sur répertoire/ ???

François

Mirgolth · 14 Août 2003

Suede a dit:
Uniquement sur / ou aussi sur répertoire/ ???

Juste / et ce malgré des millers de pages crawlées par d'autres bots.

Regarde mes stats d'aujourd'hui :

Robotstats du 14/08/03 a dit:
[182] 64.68.82.133
[179] 64.68.82.135
[207] 64.68.82.136
[212] 64.68.82.137
[194] 64.68.82.141
[206] 64.68.82.142
[189] 64.68.82.143
[199] 64.68.82.163
[200] 64.68.82.164
[190] 64.68.82.176
[199] 64.68.82.178
[__1] 64.68.82.18
[184] 64.68.82.181
[175] 64.68.82.25
[155] 64.68.82.26
[190] 64.68.82.27
[194] 64.68.82.37
[179] 64.68.82.41
[159] 64.68.82.45
[190] 64.68.82.46
[111] 64.68.82.50
[_73] 64.68.82.52
[_77] 64.68.82.54
[108] 64.68.82.55
[160] 64.68.82.65
[188] 64.68.82.77
[219] 64.68.82.78
[176] 64.68.82.79

Et bien sûr, quelle est la page crawlée par cette adresse :

1 http://www.defis-fantastiques.net/ 200 [08-14] 09:49:18 1 64.68.82.18 crawler10.googlebot.com

Plutôt étonnant !

Mirgolth

galle · 14 Août 2003

Bonjour,

à la requete : SELECT *
FROM `table`
WHERE REMOTE_ADDR
LIKE '64.68.82.%'
j'obtiens les 2 seules pages indexées par google. Ces pages sont
2408 accueil 2003-06-11 11:55:52 Googlebot/2.1 (+http://www.googlebot.com/bot.html) 64.68.82.45 crawler11.googlebot.com
4070 accueil 2003-07-28 16:16:19 Googlebot/2.1 (+http://www.googlebot.com/bot.html) 64.68.82.79 crawler12.googlebot.com

Autrement dit, la meme page, l'index du site, mise en cache aux dates indiquées.

Pourquoi ne serait-ce pas le serveur qui charge les pages en cache ?

A+, Nico.

Mirgolth · 18 Août 2003

Salut,

Pour moi ce n'est plus de la coincidence !

Robotstats du 17/08/03 a dit:
[150] 64.68.82.135
[189] 64.68.82.136
[130] 64.68.82.137
[__1] 64.68.82.14
[159] 64.68.82.141
[168] 64.68.82.142
[161] 64.68.82.143
[158] 64.68.82.163
[147] 64.68.82.164
[166] 64.68.82.176
[156] 64.68.82.178
[150] 64.68.82.181
[162] 64.68.82.25
[154] 64.68.82.26
[165] 64.68.82.27
[170] 64.68.82.37
[142] 64.68.82.41
[152] 64.68.82.45
[154] 64.68.82.46
[_85] 64.68.82.50
[150] 64.68.82.52
[_88] 64.68.82.54
[164] 64.68.82.55
[163] 64.68.82.65
[133] 64.68.82.77
[155] 64.68.82.78
[162] 64.68.82.79

Et bien sûr pour quelle page ? :

1 http://www.defis-fantastiques.net/ 200 [08-17] 05:49:19 1 64.68.82.14 crawler10.googlebot.com

Est ce que d'autres avec un nombre de pages crawlées important constatent aussi ce phénomène ?

Mirgolth

ccgv · 18 Août 2003

Salut,
pour ma part ayant passer la requette suivante (concernant ta première liste) :

SELECT url,ip FROM moteur_log WHERE ip = '64.68.82.7' or ip = '64.68.85.10' or ip = '64.68.82.14' or ip = '64.68.82.28' or ip = '64.68.82.167' or ip = '64.68.82.168' or ip = '64.68.82.169' or ip = '64.68.82.170'
group by url ORDER BY ip

Je rejette les adresse suivante (ce n'est pas seulement ma page d'accueil qui a été crawlée) :
64.68.82.14
64.68.82.168
64.68.82.28
64.68.82.7

A+