Wikia Search sort en version alpha : premières impressions
Wikia : voici le moteur vers lequel pas mal de regards sont tournés en ce début d'année, en tout cas dans le monde des référenceurs et des webmasters. En effet, c'est le moteur open source lancé par le fondateur de Wikipedia, Jimmy Wales. Voici quelques premières impressions…
Présentation de Wikia
Wikia est un projet de moteur de recherche Open Source qui mettra à contribution les internautes pour assurer une bonne pertinence. Ce n'est sans doute pas vraiment une surprise de savoir qu'à la tête de Wikia on trouve Jimmy Wales, celui-là même qui a créé Wikipedia avec le succès qu'on connait. Parmi les autres investisseurs, on trouve Bessemer Venture Partners (en mars 2006) et Amazon (en décembre 2006).
Wikia est basé sur le logiciel Open Source Nutch et utilise Grub pour bâtir son index. Annoncé en janvier 2007, Wikia est disponible en version alpha (même pas encore beta !) sur alpha.search.wikia.com/.

Premières impressions sur Wikia
A ce que j'ai pu lire un peu partout, l'accueil n'est pas excellent : d'une part l'index n'est pas encore assez étoffé (on parle d'environ 100 millions de pages web contre 20 à 30 milliards pour Google d'après ce que j'imagine), d'autre part la pertinence n'est que rarement au rendez-vous. Certains comme Michael Arrington descendent littéralement la sortie de Wikia, tandis que Jimmy Wales en personne se défend en expliquant qu'il ne s'agit que d'une première version, qu'il faut lui faire confiance – après tout, au lancement de Wikipedia, il n'y avait pas d'encyclopédie mais plutôt un site assez vide !
Malgré tout, j'ai apprécié qu'il soit déjà utilisable pour des français. Bon d'accord, les accents sont mal gérés (c'est le moins qu'on puisse dire), mais on voit que les résultats sont adaptés en fonction de la langue de l'internaute (une recherche sur ipod renvoie principalement des résultats français).
Je n'ai jamais regardé comment fonctionne Nutch, donc j'espère que certains donneront des explications dans les commentaires ou le forum. Curieux, je me suis forcément intéressé au score affiché à côté de chaque résultat.
La formule du ranking basée sur Nutch
En cliquant sur le score à côté d'un résultat, on obtient des informations pas spécialement destinées à Monsieur Tout le monde, voici un exemple avec la requête ipod :
page
- segment = 20071226220909
- digest = 65b30bf5cbc424abb482b1c392ec559d
- url = http://www.apple.com/ipod/
- orig = http://www.apple.com/itunes/
- title = Apple – iPod + iTunes
- tstamp = 20071226135200302
- boost = 8.442183
score for query: ipod
- 16.0177 = (MATCH) sum of:
- 6.1698627 = (MATCH) weight(url:ipod^4.0 in 183946), product of:
- + 0.7324864 = queryWeight(url:ipod^4.0), product of:
- 4.0 = boost
- 11.230903 = idf(docFreq=36)
- 0.016305154 = queryNorm
- + 8.423177 = (MATCH) fieldWeight(url:ipod in 183946), product of:
- 1.0 = tf(termFreq(url:ipod)=1)
- 11.230903 = idf(docFreq=36)
- 0.75 = fieldNorm(field=url, doc=183946)
- + 0.7324864 = queryWeight(url:ipod^4.0), product of:
- 0.8805822 = (MATCH) weight(content:ipod in 183946), product of:
- + 0.09852816 = queryWeight(content:ipod), product of:
- 6.042762 = idf(docFreq=6627)
- 0.016305154 = queryNorm
- + 8.937366 = (MATCH) fieldWeight(content:ipod in 183946), product of:
- 5.91608 = tf(termFreq(content:ipod)=35)
- 6.042762 = idf(docFreq=6627)
- 0.25 = fieldNorm(field=content, doc=183946)
- + 0.09852816 = queryWeight(content:ipod), product of:
- 8.967256 = (MATCH) weight(title:ipod^1.5 in 183946), product of:
- + 0.23415738 = queryWeight(title:ipod^1.5), product of:
- 1.5 = boost
- 9.573962 = idf(docFreq=193)
- 0.016305154 = queryNorm
- + 38.29585 = (MATCH) fieldWeight(title:ipod in 183946), product of:
- 1.0 = tf(termFreq(title:ipod)=1)
- 9.573962 = idf(docFreq=193)
- 4.0 = fieldNorm(field=title, doc=183946)
- + 0.23415738 = queryWeight(title:ipod^1.5), product of:
- 6.1698627 = (MATCH) weight(url:ipod^4.0 in 183946), product of:
En 1ère approximation, on peut dire que l'algorithme de Wikia analyse l'URL, le titre et le corps de chaque page et calcule pour ces zones
, un indice de densité selon la technique TF*IDF normalisé et parfois pondéré par un facteur appelé boost
. Dans cet exemple, on voit que le corps de la page n'apporte quasiment aucun point de pertinence, l'essentiel venant de l'URL et du titre. J'espère que le véritable algorithme est plus évolué que ça, sinon les humains qui doivent améliorer les résultats de Wikia vont avoir beaucoup de boulot…
Les notations des internautes
Pour l'instant, les internautes peuvent noter chaque résultat en cliquant sur des étoiles pour donner une note entre 1 et 5. Comment Wikia Search gèrera les inévitables abus d'un tel système ? On peut se poser la question…
Les internautes peuvent également contribuer en rédigeant des mini-articles, qui sont en partie affichés tout en haut des résultats. On est déjà habitués avec les pages de Wikipedia qui sortent dans Google ;-)
Pour le reste de l'intervention humaine, ça se limite à la création de profils pour afficher des photos de personnes en rapport avec la requête. De là à estimer que Wikia Search n'est qu'un réseau social de plus, il n'y a qu'un pas que certains ont déjà franchi d'après ce que j'ai pu lire sur des blogs.
En conclusion, il est encore beaucoup trop tôt pour juger le moteur de recherche Wikia, car l'index est trop petit, et surtout les apports des internautes sont encore inexistants ou presque. Venez discuter du lancement de Wikia sur le forum.
Olivier Duffez, Lundi 7 janvier 2008
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- Wikia est sortie en version Alpha
- Wikia Search Classement des sites par les visiteurs
- Requete Wikia
- Création d'un forum Wikia ???
- Regarder Wikia se faire spammer en live !!
- Wikia passe au modèle gratuit en offrant logiciels et pub
- Wikiasari : Jimmy Wales veut concurrencer Google
- version alpha de search msn
- Alpha : le moteur experimental de yahoo
- Msn search sort ses News !!!
Consultez la description détaillée des produits ou services de Google suivants : Google Accessible Search, Google News Archive Search
10 commentaires sur “Wikia Search sort en version alpha : premières impressions”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Pikati - Création et gestion de votre micro crèche
- Atlas Assurances et Finances Courtier en Assurances
- Institut de beauté Nice Spa à Nice - Patricia Laurens: soins du corps soins visage nice
- Maisons d'Avenir, maisons à ossature bois, habitat bio-économique
- Information sur le ski à Gulmarg, Himalaya, Cachemire, Inde
- La Dynamique des Fluides, blog de l'innovation liquide (boissons, agroalimentaire)
- Assurances Axa Corinne Pagnon (78)
- Dépannage informatique à Nantes, site internet, sécurité informatique
- Bon Voyage China circuit personnalisé
- Micro-Puces Voiron Informatique dépannage ordinateurs Isère



en tout cas il a déjà réussi à intéresser bcp bcp de monde avec son idée… même si bcp de personnes la dénigrent !
Petite correction : les internautes ne peuvent pas encore noter chacun des résultats.
On peut faire joujou avec les étoiles (nos notes sont d’ailleurs enregistrées durant la session), mais ne sont pas sauvegardées puisque dès le premier essai, un message apparaît : "Sorry, these don’t actually do anything yet :("
La prise en compte des votes des internautes ne semble en effet pas encore tout à fait au point. Parfois j’ai eu le message indiquant que le vote n’était pas pris en compte, et parfois je ne l’ai pas eu. On se demande bien pourquoi cette version alpha est accessible à tous car elle n’est vraiment pas opérationnelle…
Il faudrait faire des tests relatifs à la gestion des redirections 301 par Wikia Search…
[fr.indexweb.info] qui est redirigé depuis juillet 2006 sur [annuaire.indexweb.info] apparaît dans les résultats…
Perso, même si les résultats retournés m’ont un peu surpris, je n’oublie pas que ce n’est que le début, et que l’intérêt d’un tel moteur de recherche est justement d’évoluer avec le temps… comme un bon vin.
Alors attendons…
Quelqu’un a une idée sur les techniques de référencement à adopter pour être référencé sur Wikia ? J’ai tapé le nom d’une marque d’un de mes clients qui est premier sur Google avec sa marque et qui là n’y figure pas, c’est pourtant une marque assez connue…
Comment s’y prendre ?
Baptiste (Abdomain)
HMmm, j’espère que ce moteur va se casser la tête.
ENtre une société qui emploie 15 000 personnes (même si c’est aux Etats Unis) et un ramassis de pechno qui veulent, on ne sait pour quelle raison au juste, faire le travail gratuitement….
j’ai noté que les resultats retournés sont différents au singulier et au pluriels
Moi je trouve ce moteur très crédible.
On a tendance à oublier que c’est une alpha…
Le problème c’est que dès que les internautes pourront voter (pour du vrai), on imagine facilement la guerre qu’il va y avoir pour monter en tête du classement.