Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Requete Wikia

Poster un nouveau sujet Imprimer cette discussion    Forum -> Autres annuaires et moteurs de recherche connus   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
boutdepapier
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 04 Aoû 2006
Messages: 157

URL permanente de ce messagePosté le : Mar Jan 15, 2008 18:33    Sujet du message: Requete Wikia

Bonjour !

Comme tout le monde le sait wikia est sortit avec la possibilité d'afficher la requête pour comprendre le classement des sites.

Dans ma petite tête ça a fait ni une ni deux : comprendre une requête de moteur aidera au positionnement pour wikia mais aussi pour les autres moteurs (il y a forcément des idées communes). Aussi je propose que nous étudiions ensemble la requête "webrankinfo" dans wikia.

Les grandes lignes :
- En haut sont présentés les principales variables de la requête
- 137.71536 c'est le score du site webrankinfo pour la requête webrankinfo
- chaque "segment" de la requête renvois une note et toutes les notes sont additionnées pour le score finale

La requête tel que je l'ai récupérée :

Code:
    * segment = 20071226194036
    * digest = 6d1fa4ff7fc3f0563919b0e14b8f2484
    * url = http://www.webrankinfo.com/
    * title = Référencement Google, Yahoo!, MSN : actualité, forum, conseils - WebRankInfo créé par Olivier Duffez
    * tstamp = 20071226111536752
    * boost = 9.896881


137.71536 = (MATCH) sum of:

    * 4.1087103 = (MATCH) weight(url:webrankinfo in 706663), product of:
          o 0.3282512 = queryWeight(url:webrankinfo), product of:
                + 12.51697 = idf(docFreq=10)
                + 0.026224496 = queryNorm
          o 12.51697 = (MATCH) fieldWeight(url:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(url:webrankinfo)=1)
                + 12.51697 = idf(docFreq=10)
                + 1.0 = fieldNorm(field=url, doc=706663)

    * 95.24577 = (MATCH) weight(anchor:webrankinfo^2.0 in 706663), product of:
          o 0.673205 = queryWeight(anchor:webrankinfo^2.0), product of:
                + 2.0 = boost
                + 12.835423 = idf(docFreq=7)
                + 0.026224496 = queryNorm
          o 141.48108 = (MATCH) fieldWeight(anchor:webrankinfo in 706663), product of:
                + 7.3484693 = tf(termFreq(anchor:webrankinfo)=54)
                + 12.835423 = idf(docFreq=7)
                + 1.5 = fieldNorm(field=anchor, doc=706663)

    * 1.9116732 = (MATCH) weight(content:webrankinfo in 706663), product of:
          o 0.28465176 = queryWeight(content:webrankinfo), product of:
                + 10.854423 = idf(docFreq=57)
                + 0.026224496 = queryNorm
          o 6.7158313 = (MATCH) fieldWeight(content:webrankinfo in 706663), product of:
                + 2.828427 = tf(termFreq(content:webrankinfo)=8)
                + 10.854423 = idf(docFreq=57)
                + 0.21875 = fieldNorm(field=content, doc=706663)

    * 15.905655 = (MATCH) weight(title:webrankinfo^1.5 in 706663), product of:
          o 0.5002706 = queryWeight(title:webrankinfo^1.5), product of:
                + 1.5 = boost
                + 12.717641 = idf(docFreq=8)
                + 0.026224496 = queryNorm
          o 31.794102 = (MATCH) fieldWeight(title:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(title:webrankinfo)=1)
                + 12.717641 = idf(docFreq=8)
                + 2.5 = fieldNorm(field=title, doc=706663)

    * 20.543552 = (MATCH) weight(host:webrankinfo in 706663), product of:
          o 0.3282512 = queryWeight(host:webrankinfo), product of:
                + 12.51697 = idf(docFreq=10)
                + 0.026224496 = queryNorm
          o 62.584846 = (MATCH) fieldWeight(host:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(host:webrankinfo)=1)
                + 12.51697 = idf(docFreq=10)
                + 5.0 = fieldNorm(field=host, doc=706663)


Chaque segment correspond à un critère : il y en a qui sont évidents d'autres moins.
Exemple avec le segment lié au titre :
Code:
    * 15.905655 = (MATCH) weight(title:webrankinfo^1.5 in 706663), product of:
          o 0.5002706 = queryWeight(title:webrankinfo^1.5), product of:
                + 1.5 = boost
                + 12.717641 = idf(docFreq=8)
                + 0.026224496 = queryNorm
          o 31.794102 = (MATCH) fieldWeight(title:webrankinfo in 706663), product of:
                + 1.0 = tf(termFreq(title:webrankinfo)=1)
                + 12.717641 = idf(docFreq=8)
                + 2.5 = fieldNorm(field=title, doc=706663)



Analyse : 15.90 c’est la moyenne des deux sous requêtes.
Première sous requête moyenne de trois sous requête :
- Indice de temps ( ??? je crois qu'il y a un lien la présence du fichier nutch-site.xml)
- Occurrence de Webrankinfo dans la page
- Normalisation ( ???)
Deuxième sous requête :
- le mot webrankinfo est présent dans le titre ?
- Occurrence du mot dans la page
- Normalisation ( ???)

Voilà pour la premiére brique. C’est un peu fastidieux mais à terme ça peut être une mine d’information !

(note : wikia est basé sur nutch basé sur Lucéne, le mieux pour avancer c'est http://lucene.apache.org/java/2_2_0/scoring.html et d'étudier la class java : Class Similarity)


Dernière édition par boutdepapier le Mar Jan 15, 2008 19:01; édité 1 fois
 
boutdepapier Visiter le site web du posteur
WebRankInfo
Administrateur du site
Administrateur du site

Inscrit le: 19 Avr 2002
Messages: 13892
Localisation: Toulouse

URL permanente de ce messagePosté le : Mar Jan 15, 2008 18:55    Sujet du message: Requete Wikia

je parlais aussi de ces formules dans mon actu sur wikia
 
WebRankInfo Visiter le site web du posteur
boutdepapier
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 04 Aoû 2006
Messages: 157

URL permanente de ce messagePosté le : Mar Jan 15, 2008 20:03    Sujet du message: Requete Wikia

Heu désolé de contredire encore (ça devient une habitude Smile ) mais j'ai l'impression qu'au contraire l'algo se sert énormément du contenu de la page :
Par exemple la fonction idf (qu'on retrouve partout) est un match de la requête sur la page. Elle retourne un nombre qui est la somme des occurrences, pondérée par un logarithme, ex à la louche :
-une occurrence de la requête dans la page rapporte 2 points
- deux rapporte 3 points
- 3 rapporte 3,5
...

Mais c'est vrai que les critères du nom de domaine et des balises title me semblent avoir encore un peu trop de poids. Il manque aussi beaucoup sur la partie influences externes.

Je continuerais à étudier un peu la fonction demain !
 
boutdepapier Visiter le site web du posteur
domdom26
WRInaute passionné
WRInaute passionné

Inscrit le: 09 Nov 2004
Messages: 568

URL permanente de ce messagePosté le : Mer Jan 16, 2008 10:22    Sujet du message: Requete Wikia

intéressant !
 
domdom26 Visiter le site web du posteur
boutdepapier
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 04 Aoû 2006
Messages: 157

URL permanente de ce messagePosté le : Mer Jan 16, 2008 11:43    Sujet du message: Requete Wikia

Aujourd’hui, le temps de récupérer de la gueule de bois, je vais d’abord consolider ce que j’ai survolé trop légèrement hier, notamment la fonction idf(fonction inverse du terme recherché) et la fonction df (fonction de fréquence du terme recherché).

TF = nombre d’occurrence puissance 1/2. Donc croit, de façon amortie.
IDF = 1+log (NumDoc/ nombre d’occurrence +1)

(Déjà on comprend que je me suis allé trop vite hier, idf décroît légèrement plus la fréquence d’occurrence augmente mais le score final lui monte j’expliquerais plus tard)

Tiens une nouvelle inconnue, NumDocs ??? Ha, et c’est quoi ? Webrankinfo a obtenu ici 706663 ! Ouahou !!!
En fait numDocs c’est le nombre de document de l’index du site (je dirais plus un site est gros plus le nombre est important).

Premières conclusions :
- La taille d’un site influe sur son positionnement (NumDocs)
- Il faut que les mots clés présents dans vos titres soient aussi présents dans le corps du document HTML pour qu’ils soient plus « crédible ».
- Les metas et surtout les balises de titres ont du poids.

Tout ça est encore frêle mais ce n’est que le début Smile
 
boutdepapier Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Autres annuaires et moteurs de recherche connus Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort