Etude statistique de la structure du web (Laboratoire LRDE)

WRInaute impliqué
Bonjour,

Intéressant.

Mais au passage, sur votre site, sur la page d'accueil, vous écrivez :
"Ce cite". Hum, à corriger,... en "Ce site", il me semble.


PS : je fais aussi des fautes. Donc,.... 8)
 
WRInaute passionné
une question "fraction of pages" correspond bien à "nombre de pages" ?? y'a t'il une nuance? les chiffres à virgules çà fait bizarre

lien sortant
au niveau de la page suivante
http://sylvain.berbiqui.org/web-statist ... degree.htm
elle montre bien une façon de représenter le phénoméne de farm link ?
farm-links.png



lien entrant
au niveau de cette page
http://sylvain.berbiqui.org/web-statist ... degree.htm
in_degree_raw.png

- je n'arrive pas à bien comprendre ce qui est appelé du spam ?, est qu'une page qui a trop de liens entrant est considéré comme spam ? si oui, c'est assez bizarre car le nom de domaine aura forcément plus de liens entrant que les pages à l'intérieur du site.

- "nombre de pages qui reçoivent un nombre x de liens",

si on lit sur le graph, si 1 * 10 ^ -5 pages recoivent 1000 liens, alors c'est du spam ? si on ramene à une page, ca fait 100 000 000 liens, donc j'en conclue que je dois me tromper. :?

- apparement la notion de pages et de sites est bien marqué ? est ce que les deux premiéres pages in_degree et out_degree correspondent à un nombres de pages par rapport à un site ou a un nombre de pages globales ?

profondeur de site

site_max_depth.png


est ce que le pic en x=1, c'est pour dire que beaucoup de sites ont une faible profondeur ? est ce que çà correspond à ces sites type "site vitrine" qui présente juste les activités d'une société ?

pourquoi il ya t'il un pic pour une profondeur de 7 ? est ce que ca correspond à un type particulier de site , genre un site qui inclue un lien vers un forum?
 
Nouveau WRInaute
Mumuri a dit:
une question "fraction of pages" correspond bien à "nombre de pages" ?? y'a t'il une nuance? les chiffres à virgules çà fait bizarre

Non, c'est reellement de la fraction du nombre de pages dont on parle (la proportion par rapport à 1).

Mumuri a dit:
lien sortant
au niveau de la page suivante
http://sylvain.berbiqui.org/web-statist ... degree.htm
elle montre bien une façon de représenter le phénoméne de farm link ?

Oui, on a une anomalie statistique avec une proportion non négligeable de pages qui ont beaucoup plus de liens sortants que le "bloc" de pages correspondant (c'est à dire le bloc de même taille).

Mumuri a dit:
lien entrant
au niveau de cette page
http://sylvain.berbiqui.org/web-statist ... degree.htm
in_degree_raw.png

- je n'arrive pas à bien comprendre ce qui est appelé du spam ?, est qu'une page qui a trop de liens entrant est considéré comme spam ? si oui, c'est assez bizarre car le nom de domaine aura forcément plus de liens entrant que les pages à l'intérieur du site.

Ce n'est pas a proprement parler du spam, mais probablement une page qui beneficie de trop de liens pour etre honnete, grosso modo cela peut etre une page qui beneficie des liens du link farm, mais cela peut etre aussi une anomalie statistique.

Mumuri a dit:
- "nombre de pages qui reçoivent un nombre x de liens",

si on lit sur le graph, si 1 * 10 ^ -5 pages recoivent 1000 liens, alors c'est du spam ? si on ramene à une page, ca fait 100 000 000 liens, donc j'en conclue que je dois me tromper. :?

C'est une proportion du crawl total, avec 50 millions de pages dans le crawl, cela fait 500 pages qui recoivent 1000 liens.



Mumuri a dit:
profondeur de site

site_max_depth.png


est ce que le pic en x=1, c'est pour dire que beaucoup de sites ont une faible profondeur ? est ce que çà correspond à ces sites type "site vitrine" qui présente juste les activités d'une société ?

pourquoi il ya t'il un pic pour une profondeur de 7 ? est ce que ca correspond à un type particulier de site , genre un site qui inclue un lien vers un forum?

Le pic en 1 c 'est parce que la plupart des sites ont une profondeur quasi nulle, le pic à 7, j'en ignore totalement la raison, c'est peut etre une particularité de notre échantillon. On va regarder les sites de l'echantillon (enfin les pluis marquants) pour voir ce qu'il en est.
 
WRInaute passionné
tout d'abord, merci pour vos réponses

au sujet de

Ce n'est pas a proprement parler du spam, mais probablement une page qui beneficie de trop de liens pour etre honnete, grosso modo cela peut etre une page qui beneficie des liens du link farm, mais cela peut etre aussi une anomalie statistique.

je ne suis pas tout à fait d'accord

en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site

de plus, si l'on parle d'une page à l'intérieur d'un site qui aurait plus de liens que la normal, il peut s'agir par exemple du page, ou une personne aurait mis une "vidéo drole", vidéo qui aurait fait le tour des blogs et qui aurait alors reçu un grand nombre de lien entrant, on ne peut pas vraiment parler de spam. Un autre exemple, souvent pour télécharger un logiciel, les gens mettent directement la page de téléchargement ce qui fait que celle ci a plus de liens entrants, on ne peut pas parler de spam là nn plus.

de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ??
 
Nouveau WRInaute
Oui, mais la ou je dis que c'est bizarre, c'est que cette page n'est pas seule, un point sur la courbe represente plusieurs centaines de pages : par exemple le point isolé le plus haut represente un paquet d'environ 1000 pages. Après je ne dis pas que cela ne peut pas arriver, je dis juste que cela dévie du comportement statistique moyen.
 
Nouveau WRInaute
Bonjour, je suis Johan Oudinet (l'etudiant qui a travaille avec Sylvain Peyronnet sur la realisation de ces stats).

Mumuri a dit:
- apparement la notion de pages et de sites est bien marqué ? est ce que les deux premiéres pages in_degree et out_degree correspondent à un nombres de pages par rapport à un site ou a un nombre de pages globales ?

"fraction of pages" correspond au nombre de pages total (donc pas par site)

Mumuri a dit:
en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site

Les stats ne sont pas faites par rapport a un site (cf plus haut), donc meme si ce que tu dis est vrai ce n'est pas ce qui est constate par ce graphique.
Tes exemples sont aussi exactes d'un point de vue local (par rapport a un site), mais ici il s'agit d'une etude globale. Pour te faire une idee, considere que seul la page la plus valorisee a l'interieur de chaque site est representee.

Mumuri a dit:
de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ??

La je ne suis pas d'accord avec toi. Ca depend du site, mais en general on prefererai que les gens arrivent sur la page d'index du site, donc qu'elle soit plus valorisee que les autres pages.
 
WRInaute passionné
tout d'abord, merci de tes réponses


Guendalf a dit:
Mumuri a dit:
en effet, d'abord pour un site, le nom de domaine aura forcément plus de liens que les pages intérieurs du site

Les stats ne sont pas faites par rapport a un site (cf plus haut), donc meme si ce que tu dis est vrai ce n'est pas ce qui est constate par ce graphique.
Tes exemples sont aussi exactes d'un point de vue local (par rapport a un site), mais ici il s'agit d'une etude globale. Pour te faire une idee, considere que seul la page la plus valorisee a l'interieur de chaque site est representee.
est ce que vous pensez faire une étude locale, qui aurait peut etre plus d'intêret dans la mesure ou il pourrait expliquer le comportement d'un moteur de recherche vis à vis de notre site ?


Guendalf a dit:
Mumuri a dit:
de plus, qui aurai intéret a valoriser plus une page à l'intérieur de son site que le site complet ??

La je ne suis pas d'accord avec toi. Ca depend du site, mais en general on prefererai que les gens arrivent sur la page d'index du site, donc qu'elle soit plus valorisee que les autres pages.
quand je parle de page à l'intérieur du site, je parle de toutes les pages sauf la page d'accueil (désolé pour mon expression)
 
WRInaute occasionnel
Mumuri a dit:
quand je parle de page à l'intérieur du site, je parle de toutes les pages sauf la page d'accueil (désolé pour mon expression)
Et donc c'est plutôt site.com/ ou site.com/index.html la page d'accueil ? Parce que finalement ce n'est pas exactement la même chose... :p
 
Discussions similaires
Haut