| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 14159 Localisation: Toulouse
|
Posté le : Lun Fév 20, 2006 12:18 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
| Sylvain Peyronnet, chercheur au LRDE (laboratoire de Recherche et développement de l'EPITA) et l'un de ses étudiants : Johan Oudinet, travaillent sur l'analyse statistique de la structure du web, et viennent de publier une première partie de leurs résultats. |
|
| |
|
 |
Franco WRInaute passionné

Inscrit le: 02 Oct 2004 Messages: 783
|
Posté le : Lun Fév 20, 2006 12:43 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
Bonjour,
Intéressant.
Mais au passage, sur votre site, sur la page d'accueil, vous écrivez :
"Ce cite". Hum, à corriger,... en "Ce site", il me semble.
PS : je fais aussi des fautes. Donc,....  |
|
| |
|
 |
yazerty WRInaute accro

Inscrit le: 19 Juin 2005 Messages: 1682
|
Posté le : Lun Fév 20, 2006 13:18 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
Intéressant, mais quelques explications et analyses supplémentaires ne feraient pas de mal . |
|
| |
|
 |
Mumuri WRInaute accro

Inscrit le: 03 Nov 2004 Messages: 1775 Localisation: bordeaux
|
Posté le : Lun Fév 20, 2006 13:31 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
une question "fraction of pages" correspond bien à "nombre de pages" ?? y'a t'il une nuance? les chiffres à virgules çà fait bizarre
lien sortant
au niveau de la page suivante
http://sylvain.berbiqui.org/web-statistics-fr/out_degree.htm
elle montre bien une façon de représenter le phénoméne de farm link ?
lien entrant
au niveau de cette page
http://sylvain.berbiqui.org/web-statistics-fr/in_degree.htm
- je n'arrive pas à bien comprendre ce qui est appelé du spam ?, est qu'une page qui a trop de liens entrant est considéré comme spam ? si oui, c'est assez bizarre car le nom de domaine aura forcément plus de liens entrant que les pages à l'intérieur du site.
- "nombre de pages qui reçoivent un nombre x de liens",
si on lit sur le graph, si 1 * 10 ^ -5 pages recoivent 1000 liens, alors c'est du spam ? si on ramene à une page, ca fait 100 000 000 liens, donc j'en conclue que je dois me tromper.
- apparement la notion de pages et de sites est bien marqué ? est ce que les deux premiéres pages in_degree et out_degree correspondent à un nombres de pages par rapport à un site ou a un nombre de pages globales ?
profondeur de site
est ce que le pic en x=1, c'est pour dire que beaucoup de sites ont une faible profondeur ? est ce que çà correspond à ces sites type "site vitrine" qui présente juste les activités d'une société ?
pourquoi il ya t'il un pic pour une profondeur de 7 ? est ce que ca correspond à un type particulier de site , genre un site qui inclue un lien vers un forum? |
|
| |
|
 |
Sylvain.P Nouveau WRInaute
Inscrit le: 18 Fév 2006 Messages: 3
|
Posté le : Lun Fév 20, 2006 14:57 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
| Mumuri a écrit: |
une question "fraction of pages" correspond bien à "nombre de pages" ?? y'a t'il une nuance? les chiffres à virgules çà fait bizarre
|
Non, c'est reellement de la fraction du nombre de pages dont on parle (la proportion par rapport à 1).
Oui, on a une anomalie statistique avec une proportion non négligeable de pages qui ont beaucoup plus de liens sortants que le "bloc" de pages correspondant (c'est à dire le bloc de même taille).
| Mumuri a écrit: |
lien entrant
au niveau de cette page
http://sylvain.berbiqui.org/web-statistics-fr/in_degree.htm
- je n'arrive pas à bien comprendre ce qui est appelé du spam ?, est qu'une page qui a trop de liens entrant est considéré comme spam ? si oui, c'est assez bizarre car le nom de domaine aura forcément plus de liens entrant que les pages à l'intérieur du site.
|
Ce n'est pas a proprement parler du spam, mais probablement une page qui beneficie de trop de liens pour etre honnete, grosso modo cela peut etre une page qui beneficie des liens du link farm, mais cela peut etre aussi une anomalie statistique.
| Mumuri a écrit: |
- "nombre de pages qui reçoivent un nombre x de liens",
si on lit sur le graph, si 1 * 10 ^ -5 pages recoivent 1000 liens, alors c'est du spam ? si on ramene à une page, ca fait 100 000 000 liens, donc j'en conclue que je dois me tromper.
|
C'est une proportion du crawl total, avec 50 millions de pages dans le crawl, cela fait 500 pages qui recoivent 1000 liens.
| Mumuri a écrit: |
profondeur de site
est ce que le pic en x=1, c'est pour dire que beaucoup de sites ont une faible profondeur ? est ce que çà correspond à ces sites type "site vitrine" qui présente juste les activités d'une société ?
pourquoi il ya t'il un pic pour une profondeur de 7 ? est ce que ca correspond à un type particulier de site , genre un site qui inclue un lien vers un forum? |
Le pic en 1 c 'est parce que la plupart des sites ont une profondeur quasi nulle, le pic à 7, j'en ignore totalement la raison, c'est peut etre une particularité de notre échantillon. On va regarder les sites de l'echantillon (enfin les pluis marquants) pour voir ce qu'il en est. |
|
| |
|
 |
Mumuri WRInaute accro

Inscrit le: 03 Nov 2004 Messages: 1775 Localisation: bordeaux
|
Posté le : Lun Fév 20, 2006 19:22 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
tout d'abord, merci pour vos réponses
au sujet de
| Citation: |
| Ce n'est pas a proprement parler du spam, mais probablement une page qui beneficie de trop de liens pour etre honnete, grosso modo cela peut etre une page qui beneficie des liens du link farm, mais cela peut etre aussi une anomalie statistique. |
je ne suis pas tout à fait d'accord
en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site
de plus, si l'on parle d'une page à l'intérieur d'un site qui aurait plus de liens que la normal, il peut s'agir par exemple du page, ou une personne aurait mis une "vidéo drole", vidéo qui aurait fait le tour des blogs et qui aurait alors reçu un grand nombre de lien entrant, on ne peut pas vraiment parler de spam. Un autre exemple, souvent pour télécharger un logiciel, les gens mettent directement la page de téléchargement ce qui fait que celle ci a plus de liens entrants, on ne peut pas parler de spam là nn plus.
de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ?? |
|
| |
|
 |
Sylvain.P Nouveau WRInaute
Inscrit le: 18 Fév 2006 Messages: 3
|
Posté le : Lun Fév 20, 2006 19:34 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
| Oui, mais la ou je dis que c'est bizarre, c'est que cette page n'est pas seule, un point sur la courbe represente plusieurs centaines de pages : par exemple le point isolé le plus haut represente un paquet d'environ 1000 pages. Après je ne dis pas que cela ne peut pas arriver, je dis juste que cela dévie du comportement statistique moyen. |
|
| |
|
 |
Guendalf Nouveau WRInaute
Inscrit le: 28 Juin 2004 Messages: 1 Localisation: LRDE
|
Posté le : Mar Fév 21, 2006 8:57 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
Bonjour, je suis Johan Oudinet (l'etudiant qui a travaille avec Sylvain Peyronnet sur la realisation de ces stats).
| Mumuri a écrit: |
| - apparement la notion de pages et de sites est bien marqué ? est ce que les deux premiéres pages in_degree et out_degree correspondent à un nombres de pages par rapport à un site ou a un nombre de pages globales ? |
"fraction of pages" correspond au nombre de pages total (donc pas par site)
| Mumuri a écrit: |
en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site
|
Les stats ne sont pas faites par rapport a un site (cf plus haut), donc meme si ce que tu dis est vrai ce n'est pas ce qui est constate par ce graphique.
Tes exemples sont aussi exactes d'un point de vue local (par rapport a un site), mais ici il s'agit d'une etude globale. Pour te faire une idee, considere que seul la page la plus valorisee a l'interieur de chaque site est representee.
| Mumuri a écrit: |
de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ?? |
La je ne suis pas d'accord avec toi. Ca depend du site, mais en general on prefererai que les gens arrivent sur la page d'index du site, donc qu'elle soit plus valorisee que les autres pages. |
|
| |
|
 |
Mumuri WRInaute accro

Inscrit le: 03 Nov 2004 Messages: 1775 Localisation: bordeaux
|
Posté le : Mar Fév 21, 2006 12:48 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
tout d'abord, merci de tes réponses
| Guendalf a écrit: |
| Mumuri a écrit: |
en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site
|
Les stats ne sont pas faites par rapport a un site (cf plus haut), donc meme si ce que tu dis est vrai ce n'est pas ce qui est constate par ce graphique.
Tes exemples sont aussi exactes d'un point de vue local (par rapport a un site), mais ici il s'agit d'une etude globale. Pour te faire une idee, considere que seul la page la plus valorisee a l'interieur de chaque site est representee.
|
est ce que vous pensez faire une étude locale, qui aurait peut etre plus d'intêret dans la mesure ou il pourrait expliquer le comportement d'un moteur de recherche vis à vis de notre site ?
| Guendalf a écrit: |
| Mumuri a écrit: |
de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ?? |
La je ne suis pas d'accord avec toi. Ca depend du site, mais en general on prefererai que les gens arrivent sur la page d'index du site, donc qu'elle soit plus valorisee que les autres pages. |
quand je parle de page à l'intérieur du site, je parle de toutes les pages sauf la page d'accueil (désolé pour mon expression) |
|
| |
|
 |
effisk WRInaute passionné

Inscrit le: 18 Juin 2004 Messages: 607 Localisation: Biarritz
|
Posté le : Jeu Fév 23, 2006 1:16 Sujet du message: Etude statistique de la structure du web (Laboratoire LRDE) |
|
|
| Mumuri a écrit: |
| quand je parle de page à l'intérieur du site, je parle de toutes les pages sauf la page d'accueil (désolé pour mon expression) |
Et donc c'est plutôt site.com/ ou site.com/index.html la page d'accueil ? Parce que finalement ce n'est pas exactement la même chose...  |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|