Délai de traitement d'un lien

WRInaute passionné
J'ai suivi le parcours du freshbot sur de nouvelles pages:

22/04/2003-21:41:38 /suede/all_photo.php lang=sv
5 heures 30 après, il revient et suit des liens contenus dans cette page
23/04/2003-03:20:19 /suede/show_photos_all.php id_photo=67&lang=sv
23/04/2003-03:20:24 /suede/show_photos_all.php id_photo=179&lang=sv
Des liens se trouvant sur cette page sont crawlé après encore ~4h30
23/04/2003-07:55:28 /suede/show_photos_all.php id_photo=67&lang=en
23/04/2003-08:04:54 /suede/show_photos_all.php id_photo=179&lang=fr
Et on continue après 4h
23/04/2003-10:17:46 /suede/show_photos_all.php id_photo=179&lang=en

Est-ce que quelqu'un a déjà pisté le freshbot entre ces pages en le forcant à suivre un chemin ???
Il faudrait faire un lien du genre piste.php?param=$date (et peut-etre avoir un nom différent pour chaque fichier).
Cela serait intéressant également de voir l'effet du PR sur la vitesse de traitement des données. Est-ce que ce délai de 4-5j est plus court pour les PR élevé??

Bon, je ne sais pas si je me suis fait comprendre mais en tout cas, je me suis compris...

François
 
Olivier Duffez (admin)
Membre du personnel
j'avoue ne pas avoir bien compris la question...
mais fais attention aussi car rappelle-toi qu'il n'y a pas 1 robot mais plusieurs ! en gros je dirais qu'il y a une liste de pages à aller indexer, et que les robots se partagent le boulot à plusieurs.
ceci complique donc l'analyse des visites des robots...
 
WRInaute passionné
Bonjour
Je me disais bien que personne ne comprendrait ce que mon cerveau a essayé d'expliciter non sans mal...

Bon,
Imaginons une page de départ
page.php, sans lien sortant mais qui est répertoriée dans google et régulièrement visité par tous les bots possibles (le contenu doit donc changer régulièremen).

Tout d'un coup on installe un lien sur cette page.
Les liens sont générés de manière dynamique de telle manière qu'ils soient uniques. (ex un monsite.com/timestamp/page.php qui est la meme page que la page de départ à qui les magiciens de l'url rewriting passe le timestamp en parametre (une combinaison de lettre serait peut-etre mieux ). Cette page contient donc aussi un lien unique...

On logue dans un fichier le passage des bots google et le timestamp du lien sortant contenu dans cette page.

On peut ainsi suivre la progression du référencement et la manière dont les pages sont crawlés, freshcrawlés, deepcrawlés. Dans quel ordre, quel délai entre deux logs, combien de fois la page est recrawlé ...

Bon, ca n'explique pas ce que je veux faire, juste comment on peut le faire. :)


François
 
Discussions similaires
Haut