Des bots spéciaux pour les pages d'accueil ?

WRInaute occasionnel
Bonjour,

Depuis quelque temps j'ai l'impression qu'il y a des bots qui sont spécialisés pour les pages d'accueil ( je parle ici de la requête GET / sur un Host )
C'est ce genre de stats qui m'ont attiré l'oeil :
Robotstats 13/08 a dit:
Adresses IP de GoogleBot :
[187] 64.68.82.133
[189] 64.68.82.135
[213] 64.68.82.136
[211] 64.68.82.137
[225] 64.68.82.141
[189] 64.68.82.142
[206] 64.68.82.143
[207] 64.68.82.163
[192] 64.68.82.164
[__1] 64.68.82.170
[193] 64.68.82.176
[172] 64.68.82.178
[228] 64.68.82.181
[206] 64.68.82.25
[211] 64.68.82.26
[165] 64.68.82.27
[183] 64.68.82.37
[192] 64.68.82.41
[194] 64.68.82.45
[221] 64.68.82.46
[_95] 64.68.82.50
[_81] 64.68.82.52
[105] 64.68.82.54
[_97] 64.68.82.55
[223] 64.68.82.65
[206] 64.68.82.77
[197] 64.68.82.78
[200] 64.68.82.79
Une seule page crawlé par ce bot : L'accueil !

Voilà une liste d'@ IP de bot qui n'ont été voir que ma page d'accueil ( et le robots.txt ):
64.68.82.7
64.68.85.10
64.68.82.14
64.68.82.28
64.68.82.167
64.68.82.168
64.68.82.169
64.68.82.170
Observez vous le même phénomène et qu'en pensez vous ?

Mirgolth
 
Nouveau WRInaute
salut Mirgolth,

J'observe le même phénomène chez moi.

le bot n'a été voir que ma page d'accueil malgré des liens vers mes pages "secondaires"

IP: 64.68.82.168 - 64.68.82.41 - 64.68.82.18

xicor
 
WRInaute discret
on pourrai faire une grande liste

64.68.82.7
64.68.82.28
64.68.82.38
64.68.82.168
64.68.82.169

pour moi depuis le début du mois

donc j'ajoute a la liste :

64.68.82.7
64.68.85.10
64.68.82.14
64.68.82.18
64.68.82.28
64.68.82.38
64.68.82.41
64.68.82.167
64.68.82.168
64.68.82.169
64.68.82.170

allez continuer la liste !
 
WRInaute occasionnel
loupetiart a dit:
allez continuer la liste !
Tu observe un comportement similaire, à savoir des bots qui crawl exclusivement la racine d'un site ? (les autres pages étant bien crawlées mais par d'autre adressses )

Je me demandais si ce n'était pas simplement une conséquense de la structure pyramidale des sites...

Mirgolth
 
WRInaute discret
oui j'observe la même chose,
par contre maintenant il faudrai aller voir si la liste d'adresse ci dessus se retrouve pour d'autre page que la page d'accueil chez les autres...
 
WRInaute occasionnel
Adam-Xero a dit:
Même phénomene chez moi.
Non, ça c'est standard : Seule ta page accueil à un PR suffissant pour être crawlée quotidiennement.

Le phénomène que j'essaye d'analyser concerne les adresses IP des bot qui passent sur les pages d'acceuil pas la fréquence de passage ni, le nombre ne pages crawlées par jour.

Mirgolth
 
WRInaute discret
- 41

64.68.82.7
64.68.85.10
64.68.82.14
64.68.82.18
64.68.82.28
64.68.82.38
64.68.82.167
64.68.82.168
64.68.82.169
64.68.82.170

Quelles sorte d'outil pourrait t'on dévelloper avec ces infos ? Vous avez des idées ?
 
F
ffaucouneau
Guest
Ce qui est rigolo c'est qu'avec un simple PageRank de 3 et 2 sur les premier niveau, Google visite ma page d'accueil tous les jours.

Il la met en cache du jour au lendemain 'je ne suis connaissais pas cette rapidité).

Bref, je ne l'ai jamais vu aussi en forme GG.
 
WRInaute passionné
Mirgolth a dit:
Bonjour,

Depuis quelque temps j'ai l'impression qu'il y a des bots qui sont spécialisés pour les pages d'accueil ( je parle ici de la requête GET / sur un Host )


Observez vous le même phénomène et qu'en pensez vous ?

Mirgolth

Salut,

Comment définir une page d'accueil et est-ce que cette notion a un sens pour Google ?
Une page avec un lien externe?
La page à la racine du site? (Que dire des sites sur hébergement gratuit).
La page par défaut d'un répertoire (certains n'en ont pas)?

François
 
WRInaute occasionnel
loupetiart a dit:
Quelles sorte d'outil pourrait t'on dévelloper avec ces infos ? Vous avez des idées ?
Déjà il faudrait voir si c'est vérifé ou si c'est juste une coincidence. Je ne conçerve que 1 mois de logs sinon ma base dépasse les 25Megs. La periode est trop courte pour généraliser.
Suede a dit:
Comment définir une page d'accueil et est-ce que cette notion a un sens pour Google ?
J'y ai pensé aussi, et la racine d'un domaine est tout ce que Google peut distinguer.

Pourquoi / et pas /index.html ? parce que c'est comme ça sur le net il y a des conventions.

Pour ce qui est des sites chez des hebergeurs gratuits (au hasard Lycos :wink: ) et bien tant pis pour eux. Mais c'est déjà le cas aujourd'hui : lorsque tu fais une recherche, 2 sites chez wanadoo ou lycos sont considèrer comme faisant partie du même site ( cf le décalage de la 2nde URL ). Essaye de faire une recherche sur le site courant dans la toolbar sur un site hébergé dans un répertoire et tu auras les résultats sur tous les sites herbergés.

Je n'affirme rien mais je constate. Dans mes logs RS certaines IP passent et repassent mais uniquement sur /... alors j'essayes de comprendre pourquoi.

Mirgolth
 
WRInaute occasionnel
Suede a dit:
Uniquement sur / ou aussi sur répertoire/ ???
Juste / et ce malgré des millers de pages crawlées par d'autres bots.

Regarde mes stats d'aujourd'hui :

Robotstats du 14/08/03 a dit:
[182] 64.68.82.133
[179] 64.68.82.135
[207] 64.68.82.136
[212] 64.68.82.137
[194] 64.68.82.141
[206] 64.68.82.142
[189] 64.68.82.143
[199] 64.68.82.163
[200] 64.68.82.164
[190] 64.68.82.176
[199] 64.68.82.178
[__1] 64.68.82.18
[184] 64.68.82.181
[175] 64.68.82.25
[155] 64.68.82.26
[190] 64.68.82.27
[194] 64.68.82.37
[179] 64.68.82.41
[159] 64.68.82.45
[190] 64.68.82.46
[111] 64.68.82.50
[_73] 64.68.82.52
[_77] 64.68.82.54
[108] 64.68.82.55
[160] 64.68.82.65
[188] 64.68.82.77
[219] 64.68.82.78
[176] 64.68.82.79
Et bien sûr, quelle est la page crawlée par cette adresse :
1 http://www.defis-fantastiques.net/ 200 [08-14] 09:49:18 1 64.68.82.18 crawler10.googlebot.com

Plutôt étonnant !

Mirgolth
 
WRInaute discret
Bonjour,

à la requete : SELECT *
FROM `table`
WHERE REMOTE_ADDR
LIKE '64.68.82.%'
j'obtiens les 2 seules pages indexées par google. Ces pages sont
2408 accueil 2003-06-11 11:55:52 Googlebot/2.1 (+http://www.googlebot.com/bot.html) 64.68.82.45 crawler11.googlebot.com
4070 accueil 2003-07-28 16:16:19 Googlebot/2.1 (+http://www.googlebot.com/bot.html) 64.68.82.79 crawler12.googlebot.com

Autrement dit, la meme page, l'index du site, mise en cache aux dates indiquées.

Pourquoi ne serait-ce pas le serveur qui charge les pages en cache ?

A+, Nico.
 
WRInaute occasionnel
Salut,

Pour moi ce n'est plus de la coincidence !
Robotstats du 17/08/03 a dit:
[150] 64.68.82.135
[189] 64.68.82.136
[130] 64.68.82.137
[__1] 64.68.82.14
[159] 64.68.82.141
[168] 64.68.82.142
[161] 64.68.82.143
[158] 64.68.82.163
[147] 64.68.82.164
[166] 64.68.82.176
[156] 64.68.82.178
[150] 64.68.82.181
[162] 64.68.82.25
[154] 64.68.82.26
[165] 64.68.82.27
[170] 64.68.82.37
[142] 64.68.82.41
[152] 64.68.82.45
[154] 64.68.82.46
[_85] 64.68.82.50
[150] 64.68.82.52
[_88] 64.68.82.54
[164] 64.68.82.55
[163] 64.68.82.65
[133] 64.68.82.77
[155] 64.68.82.78
[162] 64.68.82.79
Et bien sûr pour quelle page ? :
1 http://www.defis-fantastiques.net/ 200 [08-17] 05:49:19 1 64.68.82.14 crawler10.googlebot.com
Est ce que d'autres avec un nombre de pages crawlées important constatent aussi ce phénomène ?

Mirgolth
 
WRInaute discret
Salut,
pour ma part ayant passer la requette suivante (concernant ta première liste) :
SELECT url,ip FROM moteur_log WHERE ip = '64.68.82.7' or ip = '64.68.85.10' or ip = '64.68.82.14' or ip = '64.68.82.28' or ip = '64.68.82.167' or ip = '64.68.82.168' or ip = '64.68.82.169' or ip = '64.68.82.170'
group by url ORDER BY ip
Je rejette les adresse suivante (ce n'est pas seulement ma page d'accueil qui a été crawlée) :
64.68.82.14
64.68.82.168
64.68.82.28
64.68.82.7

A+
 
Discussions similaires
Haut