Le Petit PR Illustré

spidetra · 16 Novembre 2005

Salut à tous,
Voici une petite expérience pour illustrer le PR autrement que par une formule mathématique.
En simplifiant, dans un monde sans référenceur et sans spammeur, le PR représente la probabilité de tomber sur une url en surfant sur le web au hasard.
J'ai donc simulé un surf au hasard sur 122.036 urls, normalement je devrais tombé rapidement sur les noms de domaines ayant des PR très important.

Métgodologie :
1. Récupération du rdf de DMoz
2. Extraction au hasard d'une 1 url / 30.000 dans la base => 172 urls comme point de départ du crawl.
3. 2° crawl : extraction de 1.000 urls parmis toutes les nvles urls détectées lors du premier craw.
4. 3° crawl : 1.000 nvlls urls ( même méthodo que le 2° )
5. 4° crawl : crawl de toutes les urls détectés : 16.400 urls
6 Suite au 4° crawl : 130.464 urls de plus dans la base.

Il est évident que pour simuler le craw aléatoire, j'aurai du continuer à crawler uniquement des lots de 1.000 urls. Mais mon but initial n'est pas l'étude du PR.

A la fin, je me retrouve donc avec 5 lots d'urls :
- Lot 1 : 172 urls
- Lot 2 : 1.000 urls
- Lot 3 : 1.000 urls
- Lot 4 : 16.400 urls
- Lot 5 : 130.464 urls

Pour l'instant, je me suis juste amusé à regardé l'évolution du nombre de .fr dans mes lots.
- Lot 1 : 1 seul .fr
- Lot 4 : 2 .fr
dés le lot 5, c'est le festival des gros PR ( avec extension .fr tjrs ) :
- Cnil
- Aol
- Lycos
- Google.fr
- lemonde.fr
- zdnet.fr
- dell.fr
- free.fr
- inria, cnrs
- ebay
- sun
- cnet
- shopzilla
- sonymusic.fr
etc, etc....

En fait, dans le lot 5, on a 3 types d'url :
- Les très gros noms de domaine
- Les pages perso hébergés chez : free, lycos, aol, etc....
- Quelques domaines ( 4 ou 5 ) ayant un PR >= 5 : Ex : le site officiel de l'OL.

Je sais que cette expérience est ancedoctique et qu'elle n'apporte pas grand chose en terme de compréhension du ranking de Google.
En fait, l'objectif initial de mon crawl n'est pas l'étude du PR, mais de faire des graphes.

mowmow · 16 Novembre 2005

On peut voir les graphes ?

Luj · 16 Novembre 2005

normalement tu devrais arriver au graphe papillon.
si ce n'est pas le cas et que la typologie du web a changé, je suis très intéressé de savoir quelle est la tendance actuelle (avec les blogs, ...)

spidetra · 16 Novembre 2005

mowmow a dit:
On peut voir les graphes ?

Dés que j'arrive à pondre qque chose d'exploitable avec plaisir

Photoshop user · 16 Novembre 2005

Moi aussi, je veux voir le graphe

wullon · 16 Novembre 2005

Pareil :lol:.

amazigh25 · 17 Novembre 2005

Moi aussi ;-)

spidetra · 17 Novembre 2005

Vous excitez pas trop quand même pour l'instant je suis très loin d'avoir un truc exploitable !
Mon premier jeu de test est bc trop gros... pfff, c pas gagné.