Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Le deep crawl de GoogleBot sur WebRankInfo

Poster un nouveau sujet Imprimer cette discussion    Forum -> Le site WebRankInfo   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
WebRankInfo
Administrateur du site
Administrateur du site

Inscrit le: 19 Avr 2002
Messages: 14192
Localisation: Toulouse

URL permanente de ce messagePosté le : Mar Nov 05, 2002 21:48    Sujet du message: Le deep crawl de GoogleBot sur WebRankInfo

comme bcp de monde sans doute, le site WebRankInfo a la chance de recevoir beaucoup de visites, et pas seulement de vous Wink ... d'un certain GoogleBot.
les visites viennent de plusieurs adresses IP, car GoogleBot est réparti sur un grand nombre de machines.
Les machines spécialisées dans le "deep crawl" (l'indexation intensive qui suit la fin de la Google Dance) sont celles provenant des adresses commençant par 216 (nom de domaine en crawlxx.googlebot.com) :
Code:
  216.239.46.100
  216.239.46.101
  216.239.46.102
  216.239.46.104
  216.239.46.105
  216.239.46.118
  216.239.46.12
  216.239.46.121
  216.239.46.124
  216.239.46.13
  216.239.46.133
  216.239.46.134
  216.239.46.140
  216.239.46.146
  216.239.46.147
  216.239.46.153
  216.239.46.164
  216.239.46.165
  216.239.46.166
  216.239.46.168
  216.239.46.171
  216.239.46.172
  216.239.46.173
  216.239.46.184
  216.239.46.19
  216.239.46.197
  216.239.46.204
  216.239.46.22
  216.239.46.220
  216.239.46.222
  216.239.46.223
  216.239.46.226
  216.239.46.23
  216.239.46.236
  216.239.46.27
  216.239.46.3
  216.239.46.30
  216.239.46.42
  216.239.46.43
  216.239.46.48
  216.239.46.60
  216.239.46.63
  216.239.46.66
  216.239.46.75
  216.239.46.76
  216.239.46.77
  216.239.46.82
  216.239.46.85
  216.239.46.86
  216.239.46.88
  216.239.46.90
  216.239.46.96
  216.239.46.98


tandis que les autres sont celles des crawlers "classiques" (l'indexation quotidienne), provenant des adresses commençant par 64 (nom de domaine en crawlerxx.googlebot.com)
Code:

  64.68.82.14
  64.68.82.18
  64.68.82.28
  64.68.82.38
  64.68.82.39
  64.68.82.47
  64.68.82.5
  64.68.82.57
  64.68.82.58
  64.68.82.6
  64.68.82.66
  64.68.82.67
  64.68.82.68
  64.68.82.69
  64.68.82.7
  64.68.82.70
  64.68.82.71
  64.68.82.74


Merci à Eservice et Fruge pour leur contribution à ces petites recherches Smile
(voyez http://www.webrankinfo.com/forums/viewpost_3012.htm )
J'en profite pour vous rappeler que j'ai mis à jour GoogleStats, maintenant vous pouvez savoir aussi l'adresse IP de Googlebot lors de son passage.
http://www.webrankinfo.com/googlestats/
 
WebRankInfo Visiter le site web du posteur
speedyop
Nouveau WRInaute

Inscrit le: 05 Nov 2002
Messages: 18

URL permanente de ce messagePosté le : Mer Nov 06, 2002 0:07    Sujet du message: ameliorations

tiens une petit idée d'amelioration, pkoa ne pas crer un fichier special javascript contenant le code d'include de googlestats

<?php
include "/home/VOTRE_LOGIN/www/googlestats/admin/config.php";
include "/home/VOTRE_LOGIN/www/googlestats/googlestats.inc.php";
?>

ensuite il suffit d'inclure en javascript ce fichier

<script language=javascript src="rep/googlestats_js.php"></script>

?

sinon lors de la consultation faire un gethostbyaddr pour optenir ce fameux nom de serveur (numero de robot)

enfin je dit ca j'ai meme pas encore tester mais promis demain je l'install Wink (j'ai pas acces a mes serveurs de chez moi)
 
speedyop
WebRankInfo
Administrateur du site
Administrateur du site

Inscrit le: 19 Avr 2002
Messages: 14192
Localisation: Toulouse

URL permanente de ce messagePosté le : Mer Nov 06, 2002 7:56    Sujet du message: Le deep crawl de GoogleBot sur WebRankInfo

pour le javascript, pourquoi pas, je vais essayer
pour le gethostbyaddr, je l'ai installé hier et je le rajouterai dans GoogleStats bientôt...
 
WebRankInfo Visiter le site web du posteur
speedyop
Nouveau WRInaute

Inscrit le: 05 Nov 2002
Messages: 18

URL permanente de ce messagePosté le : Mer Nov 06, 2002 10:46    Sujet du message: Le deep crawl de GoogleBot sur WebRankInfo

en fait l'idée du javascript serait que la page analysé n'a pas besoin d'etre en php, une simple page html suffirait, bien sur le serveur doit faire du php et il doit y avoir une base de donnée
 
speedyop
WebRankInfo
Administrateur du site
Administrateur du site

Inscrit le: 19 Avr 2002
Messages: 14192
Localisation: Toulouse

URL permanente de ce messagePosté le : Sam Nov 09, 2002 21:07    Sujet du message: Re: ameliorations

speedyop a écrit:
tiens une petit idée d'amelioration, pkoa ne pas crer un fichier special javascript contenant le code d'include de googlestats

<?php
include "/home/VOTRE_LOGIN/www/googlestats/admin/config.php";
include "/home/VOTRE_LOGIN/www/googlestats/googlestats.inc.php";
?>

ensuite il suffit d'inclure en javascript ce fichier

<script language=javascript src="rep/googlestats_js.php"></script>

?

C'est une bonne idée mais il reste à régler un dernier pb car dans ce cas l'adresse enregistrée est "rep/googlestats_js.php" ce qui n'a pas grand intérêt.
 
WebRankInfo Visiter le site web du posteur
Ez4Me2KU|nonconnecte
Invité




URL permanente de ce messagePosté le : Mar Nov 12, 2002 19:15    Sujet du message: Le deep crawl de GoogleBot sur WebRankInfo

Concernant ce dernier, il suffirait de logger getenv("HTTP_REFERER"), qui sera en l'occurence la page qui contient le code js.

A confirmer.
 
WebRankInfo
Administrateur du site
Administrateur du site

Inscrit le: 19 Avr 2002
Messages: 14192
Localisation: Toulouse

URL permanente de ce messagePosté le : Mar Nov 12, 2002 19:34    Sujet du message: Le deep crawl de GoogleBot sur WebRankInfo

ça semble marcher donc je vais l'intégrer à la prochaine version. on verra si plusieurs d'entre vous rencontrent des pb je reviendrai à la version actuelle.

c'est vrai que ça présente l'intérêt de marcher avec des pages .htm et pas seulement des .php
 
WebRankInfo Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Le site WebRankInfo Toutes les heures sont au format GMT + 1 Heure
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort