Salut à tous,
Voici une petite expérience pour illustrer le PR autrement que par une formule mathématique.
En simplifiant, dans un monde sans référenceur et sans spammeur, le PR représente la probabilité de tomber sur une url en surfant sur le web au hasard.
J'ai donc simulé un surf au hasard sur 122.036 urls, normalement je devrais tombé rapidement sur les noms de domaines ayant des PR très important.
Métgodologie :
1. Récupération du rdf de DMoz
2. Extraction au hasard d'une 1 url / 30.000 dans la base => 172 urls comme point de départ du crawl.
3. 2° crawl : extraction de 1.000 urls parmis toutes les nvles urls détectées lors du premier craw.
4. 3° crawl : 1.000 nvlls urls ( même méthodo que le 2° )
5. 4° crawl : crawl de toutes les urls détectés : 16.400 urls
6 Suite au 4° crawl : 130.464 urls de plus dans la base.
Il est évident que pour simuler le craw aléatoire, j'aurai du continuer à crawler uniquement des lots de 1.000 urls. Mais mon but initial n'est pas l'étude du PR.
A la fin, je me retrouve donc avec 5 lots d'urls :
- Lot 1 : 172 urls
- Lot 2 : 1.000 urls
- Lot 3 : 1.000 urls
- Lot 4 : 16.400 urls
- Lot 5 : 130.464 urls
Pour l'instant, je me suis juste amusé à regardé l'évolution du nombre de .fr dans mes lots.
- Lot 1 : 1 seul .fr
- Lot 4 : 2 .fr
dés le lot 5, c'est le festival des gros PR ( avec extension .fr tjrs ) :
- Cnil
- Aol
- Lycos
- Google.fr
- lemonde.fr
- zdnet.fr
- dell.fr
- free.fr
- inria, cnrs
- ebay
- sun
- cnet
- shopzilla
- sonymusic.fr
etc, etc....
En fait, dans le lot 5, on a 3 types d'url :
- Les très gros noms de domaine
- Les pages perso hébergés chez : free, lycos, aol, etc....
- Quelques domaines ( 4 ou 5 ) ayant un PR >= 5 : Ex : le site officiel de l'OL.
Je sais que cette expérience est ancedoctique et qu'elle n'apporte pas grand chose en terme de compréhension du ranking de Google.
En fait, l'objectif initial de mon crawl n'est pas l'étude du PR, mais de faire des graphes.
Voici une petite expérience pour illustrer le PR autrement que par une formule mathématique.
En simplifiant, dans un monde sans référenceur et sans spammeur, le PR représente la probabilité de tomber sur une url en surfant sur le web au hasard.
J'ai donc simulé un surf au hasard sur 122.036 urls, normalement je devrais tombé rapidement sur les noms de domaines ayant des PR très important.
Métgodologie :
1. Récupération du rdf de DMoz
2. Extraction au hasard d'une 1 url / 30.000 dans la base => 172 urls comme point de départ du crawl.
3. 2° crawl : extraction de 1.000 urls parmis toutes les nvles urls détectées lors du premier craw.
4. 3° crawl : 1.000 nvlls urls ( même méthodo que le 2° )
5. 4° crawl : crawl de toutes les urls détectés : 16.400 urls
6 Suite au 4° crawl : 130.464 urls de plus dans la base.
Il est évident que pour simuler le craw aléatoire, j'aurai du continuer à crawler uniquement des lots de 1.000 urls. Mais mon but initial n'est pas l'étude du PR.
A la fin, je me retrouve donc avec 5 lots d'urls :
- Lot 1 : 172 urls
- Lot 2 : 1.000 urls
- Lot 3 : 1.000 urls
- Lot 4 : 16.400 urls
- Lot 5 : 130.464 urls
Pour l'instant, je me suis juste amusé à regardé l'évolution du nombre de .fr dans mes lots.
- Lot 1 : 1 seul .fr
- Lot 4 : 2 .fr
dés le lot 5, c'est le festival des gros PR ( avec extension .fr tjrs ) :
- Cnil
- Aol
- Lycos
- Google.fr
- lemonde.fr
- zdnet.fr
- dell.fr
- free.fr
- inria, cnrs
- ebay
- sun
- cnet
- shopzilla
- sonymusic.fr
etc, etc....
En fait, dans le lot 5, on a 3 types d'url :
- Les très gros noms de domaine
- Les pages perso hébergés chez : free, lycos, aol, etc....
- Quelques domaines ( 4 ou 5 ) ayant un PR >= 5 : Ex : le site officiel de l'OL.
Je sais que cette expérience est ancedoctique et qu'elle n'apporte pas grand chose en terme de compréhension du ranking de Google.
En fait, l'objectif initial de mon crawl n'est pas l'étude du PR, mais de faire des graphes.