Statistiques sur les (sous-)domaines (aol data)

WRInaute passionné
Toujours a partir des donnees fournies par AOL, quel sous-domaine est utilise?
Code:
6.59% n'utilisent pas de sous-domaine (domaine.tld)
17.38% utilisent un sous-domaine autre que www (truc.domaine.tld)
76.04% utilisent www (www.domaine.tld)

TLDs utilises:
(suprematie du .com, le .org est preferre au .net)
Code:
1059490	com	66,50%
179260	org	11,25%
83807	net	5,26%
42262	uk	2,65%
41604	info	2,61%
33930	edu	2,13%
21006	us	1,32%
15736	au	0,99%
14826	ca	0,93%
11545	de	0,72%
7376	gov	0,46%
5148	pl	0,32%
4899	it	0,31%
4657	nl	0,29%
4106	biz	0,26%
3995	jp	0,25%
3931	be	0,25%
3857	nz	0,24%
3679	ru	0,23%
2855	fr	0,18%
On aussi notera la percee du .info (a cause de la politique tarifaire tres agressive).

88% des noms d'hotes ont une extension generique (gTLD .com, .org, ...)
12% ont une extension nationale.

Les domaines qui ont le plus de sous-domaines:
Code:
17579 blogspot
9943 tripod
2154 typepad
2025 areaconnect
1578 homestead
1494 deviantart
1374 worldpages-ads
1284 alibaba

Estimation du nombre de noms d'hote servant au webspam: 99%
(ce chiffre est non argumente, il est base sur le rapport entre le nombre de chiffres presents)

Nombre de sous-domaines par domaine (estimation gTLD):
Code:
0 ou 1	97,12%
2	1,66%
3	0,43%
4+	0,79%

Tous ces chiffres sont a prendre avec des pincettes, ils sont directement dependant du referencement des sites.
 
WRInaute discret
Serious a dit:
Estimation du nombre de noms d'hote servant au webspam: 99%
(ce chiffre est non argumente, il est base sur le rapport entre le nombre de chiffres presents)

Tu peux expliquer ce que tu entends par là ?
 
WRInaute passionné
Parmi tous les hotes listes, un grand nombre sert au webspam (c'est a dire des sites generes destines uniquement a afficher de la publicite). Quand je dis 99%, c'est la proportion sur les noms d'hotes. Si on rapporte ca au nombre de requetes ca represente peut-etre 1% (je n'ai pas calcule pour l'instant).
Exemple (extrait des donnees):
Code:
13508   taj mahal restaurant brooklyn ny 11209  2006-05-14 17:25:26     5       http://2899.0yhsnw.info
Souvent les noms d'hotes utilises pour le webspam contiennent beaucoup de chifres (ici 5 dans 2899.0yhsnw).
 
Discussions similaires
Haut