| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
boutdepapier WRInaute occasionnel

Inscrit le: 04 Aoû 2006 Messages: 157
|
Posté le : Mar Jan 15, 2008 18:33 Sujet du message: Requete Wikia |
|
|
Bonjour !
Comme tout le monde le sait wikia est sortit avec la possibilité d'afficher la requête pour comprendre le classement des sites.
Dans ma petite tête ça a fait ni une ni deux : comprendre une requête de moteur aidera au positionnement pour wikia mais aussi pour les autres moteurs (il y a forcément des idées communes). Aussi je propose que nous étudiions ensemble la requête "webrankinfo" dans wikia.
Les grandes lignes :
- En haut sont présentés les principales variables de la requête
- 137.71536 c'est le score du site webrankinfo pour la requête webrankinfo
- chaque "segment" de la requête renvois une note et toutes les notes sont additionnées pour le score finale
La requête tel que je l'ai récupérée :
| Code: |
* segment = 20071226194036
* digest = 6d1fa4ff7fc3f0563919b0e14b8f2484
* url = http://www.webrankinfo.com/
* title = Référencement Google, Yahoo!, MSN : actualité, forum, conseils - WebRankInfo créé par Olivier Duffez
* tstamp = 20071226111536752
* boost = 9.896881
137.71536 = (MATCH) sum of:
* 4.1087103 = (MATCH) weight(url:webrankinfo in 706663), product of:
o 0.3282512 = queryWeight(url:webrankinfo), product of:
+ 12.51697 = idf(docFreq=10)
+ 0.026224496 = queryNorm
o 12.51697 = (MATCH) fieldWeight(url:webrankinfo in 706663), product of:
+ 1.0 = tf(termFreq(url:webrankinfo)=1)
+ 12.51697 = idf(docFreq=10)
+ 1.0 = fieldNorm(field=url, doc=706663)
* 95.24577 = (MATCH) weight(anchor:webrankinfo^2.0 in 706663), product of:
o 0.673205 = queryWeight(anchor:webrankinfo^2.0), product of:
+ 2.0 = boost
+ 12.835423 = idf(docFreq=7)
+ 0.026224496 = queryNorm
o 141.48108 = (MATCH) fieldWeight(anchor:webrankinfo in 706663), product of:
+ 7.3484693 = tf(termFreq(anchor:webrankinfo)=54)
+ 12.835423 = idf(docFreq=7)
+ 1.5 = fieldNorm(field=anchor, doc=706663)
* 1.9116732 = (MATCH) weight(content:webrankinfo in 706663), product of:
o 0.28465176 = queryWeight(content:webrankinfo), product of:
+ 10.854423 = idf(docFreq=57)
+ 0.026224496 = queryNorm
o 6.7158313 = (MATCH) fieldWeight(content:webrankinfo in 706663), product of:
+ 2.828427 = tf(termFreq(content:webrankinfo)=8)
+ 10.854423 = idf(docFreq=57)
+ 0.21875 = fieldNorm(field=content, doc=706663)
* 15.905655 = (MATCH) weight(title:webrankinfo^1.5 in 706663), product of:
o 0.5002706 = queryWeight(title:webrankinfo^1.5), product of:
+ 1.5 = boost
+ 12.717641 = idf(docFreq=8)
+ 0.026224496 = queryNorm
o 31.794102 = (MATCH) fieldWeight(title:webrankinfo in 706663), product of:
+ 1.0 = tf(termFreq(title:webrankinfo)=1)
+ 12.717641 = idf(docFreq=8)
+ 2.5 = fieldNorm(field=title, doc=706663)
* 20.543552 = (MATCH) weight(host:webrankinfo in 706663), product of:
o 0.3282512 = queryWeight(host:webrankinfo), product of:
+ 12.51697 = idf(docFreq=10)
+ 0.026224496 = queryNorm
o 62.584846 = (MATCH) fieldWeight(host:webrankinfo in 706663), product of:
+ 1.0 = tf(termFreq(host:webrankinfo)=1)
+ 12.51697 = idf(docFreq=10)
+ 5.0 = fieldNorm(field=host, doc=706663) |
Chaque segment correspond à un critère : il y en a qui sont évidents d'autres moins.
Exemple avec le segment lié au titre :
| Code: |
* 15.905655 = (MATCH) weight(title:webrankinfo^1.5 in 706663), product of:
o 0.5002706 = queryWeight(title:webrankinfo^1.5), product of:
+ 1.5 = boost
+ 12.717641 = idf(docFreq=8)
+ 0.026224496 = queryNorm
o 31.794102 = (MATCH) fieldWeight(title:webrankinfo in 706663), product of:
+ 1.0 = tf(termFreq(title:webrankinfo)=1)
+ 12.717641 = idf(docFreq=8)
+ 2.5 = fieldNorm(field=title, doc=706663) |
Analyse : 15.90 c’est la moyenne des deux sous requêtes.
Première sous requête moyenne de trois sous requête :
- Indice de temps ( ??? je crois qu'il y a un lien la présence du fichier nutch-site.xml)
- Occurrence de Webrankinfo dans la page
- Normalisation ( ???)
Deuxième sous requête :
- le mot webrankinfo est présent dans le titre ?
- Occurrence du mot dans la page
- Normalisation ( ???)
Voilà pour la premiére brique. C’est un peu fastidieux mais à terme ça peut être une mine d’information !
(note : wikia est basé sur nutch basé sur Lucéne, le mieux pour avancer c'est http://lucene.apache.org/java/2_2_0/scoring.html et d'étudier la class java : Class Similarity)
Dernière édition par boutdepapier le Mar Jan 15, 2008 19:01; édité 1 fois |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13892 Localisation: Toulouse
|
Posté le : Mar Jan 15, 2008 18:55 Sujet du message: Requete Wikia |
|
|
| je parlais aussi de ces formules dans mon actu sur wikia |
|
| |
|
 |
boutdepapier WRInaute occasionnel

Inscrit le: 04 Aoû 2006 Messages: 157
|
Posté le : Mar Jan 15, 2008 20:03 Sujet du message: Requete Wikia |
|
|
Heu désolé de contredire encore (ça devient une habitude ) mais j'ai l'impression qu'au contraire l'algo se sert énormément du contenu de la page :
Par exemple la fonction idf (qu'on retrouve partout) est un match de la requête sur la page. Elle retourne un nombre qui est la somme des occurrences, pondérée par un logarithme, ex à la louche :
-une occurrence de la requête dans la page rapporte 2 points
- deux rapporte 3 points
- 3 rapporte 3,5
...
Mais c'est vrai que les critères du nom de domaine et des balises title me semblent avoir encore un peu trop de poids. Il manque aussi beaucoup sur la partie influences externes.
Je continuerais à étudier un peu la fonction demain ! |
|
| |
|
 |
domdom26 WRInaute passionné

Inscrit le: 09 Nov 2004 Messages: 568
|
Posté le : Mer Jan 16, 2008 10:22 Sujet du message: Requete Wikia |
|
|
| intéressant ! |
|
| |
|
 |
boutdepapier WRInaute occasionnel

Inscrit le: 04 Aoû 2006 Messages: 157
|
Posté le : Mer Jan 16, 2008 11:43 Sujet du message: Requete Wikia |
|
|
Aujourd’hui, le temps de récupérer de la gueule de bois, je vais d’abord consolider ce que j’ai survolé trop légèrement hier, notamment la fonction idf(fonction inverse du terme recherché) et la fonction df (fonction de fréquence du terme recherché).
TF = nombre d’occurrence puissance 1/2. Donc croit, de façon amortie.
IDF = 1+log (NumDoc/ nombre d’occurrence +1)
(Déjà on comprend que je me suis allé trop vite hier, idf décroît légèrement plus la fréquence d’occurrence augmente mais le score final lui monte j’expliquerais plus tard)
Tiens une nouvelle inconnue, NumDocs ??? Ha, et c’est quoi ? Webrankinfo a obtenu ici 706663 ! Ouahou !!!
En fait numDocs c’est le nombre de document de l’index du site (je dirais plus un site est gros plus le nombre est important).
Premières conclusions :
- La taille d’un site influe sur son positionnement (NumDocs)
- Il faut que les mots clés présents dans vos titres soient aussi présents dans le corps du document HTML pour qu’ils soient plus « crédible ».
- Les metas et surtout les balises de titres ont du poids.
Tout ça est encore frêle mais ce n’est que le début  |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|