Wikia Search sort en version alpha : premières impressions
Wikia : voici le moteur vers lequel pas mal de regards sont tournés en ce début d'année, en tout cas dans le monde des référenceurs et des webmasters. En effet, c'est le moteur open source lancé par le fondateur de Wikipedia, Jimmy Wales. Voici quelques premières impressions...
Présentation de Wikia
Wikia est un projet de moteur de recherche Open Source qui mettra à contribution les internautes pour assurer une bonne pertinence. Ce n'est sans doute pas vraiment une surprise de savoir qu'à la tête de Wikia on trouve Jimmy Wales, celui-là même qui a créé Wikipedia avec le succès qu'on connait. Parmi les autres investisseurs, on trouve Bessemer Venture Partners (en mars 2006) et Amazon (en décembre 2006).
Wikia est basé sur le logiciel Open Source Nutch et utilise Grub pour bâtir son index. Annoncé en janvier 2007, Wikia est disponible en version alpha (même pas encore beta !) sur alpha.search.wikia.com/.

Premières impressions sur Wikia
A ce que j'ai pu lire un peu partout, l'accueil n'est pas excellent : d'une part l'index n'est pas encore assez étoffé (on parle d'environ 100 millions de pages web contre 20 à 30 milliards pour Google d'après ce que j'imagine), d'autre part la pertinence n'est que rarement au rendez-vous. Certains comme Michael Arrington descendent littéralement la sortie de Wikia, tandis que Jimmy Wales en personne se défend en expliquant qu'il ne s'agit que d'une première version, qu'il faut lui faire confiance - après tout, au lancement de Wikipedia, il n'y avait pas d'encyclopédie mais plutôt un site assez vide !
Malgré tout, j'ai apprécié qu'il soit déjà utilisable pour des français. Bon d'accord, les accents sont mal gérés (c'est le moins qu'on puisse dire), mais on voit que les résultats sont adaptés en fonction de la langue de l'internaute (une recherche sur ipod renvoie principalement des résultats français).
Je n'ai jamais regardé comment fonctionne Nutch, donc j'espère que certains donneront des explications dans les commentaires ou le forum. Curieux, je me suis forcément intéressé au score affiché à côté de chaque résultat.
La formule du ranking basée sur Nutch
En cliquant sur le score à côté d'un résultat, on obtient des informations pas spécialement destinées à Monsieur Tout le monde, voici un exemple avec la requête ipod :
page
- segment = 20071226220909
- digest = 65b30bf5cbc424abb482b1c392ec559d
- url = http://www.apple.com/ipod/
- orig = http://www.apple.com/itunes/
- title = Apple - iPod + iTunes
- tstamp = 20071226135200302
- boost = 8.442183
score for query: ipod
- 16.0177 = (MATCH) sum of:
- 6.1698627 = (MATCH) weight(url:ipod^4.0 in 183946), product of:
- + 0.7324864 = queryWeight(url:ipod^4.0), product of:
- 4.0 = boost
- 11.230903 = idf(docFreq=36)
- 0.016305154 = queryNorm
- + 8.423177 = (MATCH) fieldWeight(url:ipod in 183946), product of:
- 1.0 = tf(termFreq(url:ipod)=1)
- 11.230903 = idf(docFreq=36)
- 0.75 = fieldNorm(field=url, doc=183946)
- + 0.7324864 = queryWeight(url:ipod^4.0), product of:
- 0.8805822 = (MATCH) weight(content:ipod in 183946), product of:
- + 0.09852816 = queryWeight(content:ipod), product of:
- 6.042762 = idf(docFreq=6627)
- 0.016305154 = queryNorm
- + 8.937366 = (MATCH) fieldWeight(content:ipod in 183946), product of:
- 5.91608 = tf(termFreq(content:ipod)=35)
- 6.042762 = idf(docFreq=6627)
- 0.25 = fieldNorm(field=content, doc=183946)
- + 0.09852816 = queryWeight(content:ipod), product of:
- 8.967256 = (MATCH) weight(title:ipod^1.5 in 183946), product of:
- + 0.23415738 = queryWeight(title:ipod^1.5), product of:
- 1.5 = boost
- 9.573962 = idf(docFreq=193)
- 0.016305154 = queryNorm
- + 38.29585 = (MATCH) fieldWeight(title:ipod in 183946), product of:
- 1.0 = tf(termFreq(title:ipod)=1)
- 9.573962 = idf(docFreq=193)
- 4.0 = fieldNorm(field=title, doc=183946)
- + 0.23415738 = queryWeight(title:ipod^1.5), product of:
- 6.1698627 = (MATCH) weight(url:ipod^4.0 in 183946), product of:
En 1ère approximation, on peut dire que l'algorithme de Wikia analyse l'URL, le titre et le corps de chaque page et calcule pour ces zones
, un indice de densité selon la technique TF*IDF normalisé et parfois pondéré par un facteur appelé boost
. Dans cet exemple, on voit que le corps de la page n'apporte quasiment aucun point de pertinence, l'essentiel venant de l'URL et du titre. J'espère que le véritable algorithme est plus évolué que ça, sinon les humains qui doivent améliorer les résultats de Wikia vont avoir beaucoup de boulot...
Les notations des internautes
Pour l'instant, les internautes peuvent noter chaque résultat en cliquant sur des étoiles pour donner une note entre 1 et 5. Comment Wikia Search gèrera les inévitables abus d'un tel système ? On peut se poser la question...
Les internautes peuvent également contribuer en rédigeant des mini-articles, qui sont en partie affichés tout en haut des résultats. On est déjà habitués avec les pages de Wikipedia qui sortent dans Google ;-)
Pour le reste de l'intervention humaine, ça se limite à la création de profils pour afficher des photos de personnes en rapport avec la requête. De là à estimer que Wikia Search n'est qu'un réseau social de plus, il n'y a qu'un pas que certains ont déjà franchi d'après ce que j'ai pu lire sur des blogs.
En conclusion, il est encore beaucoup trop tôt pour juger le moteur de recherche Wikia, car l'index est trop petit, et surtout les apports des internautes sont encore inexistants ou presque. Venez discuter du lancement de Wikia sur le forum.
Par Olivier Duffez
, Lundi 7 janvier 2008
A propos de l'auteur : Olivier Duffez
![]()
Consultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
10 commentaires
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
Catégories des dossiers
- Actualité
- Android
- Autres produits Google
- Brèves
- Conseils référencement
- Débuter en référencement
- Droit et Internet
- e-marketing
- Ecrire pour le web et le référencement
- Gmail
- Google AdSense
- Google AdWords
- Google Analytics
- Google Chrome
- Google Images
- Google Labs
- Google Maps
- Google Mobile
- Google News
- Google Search
- Google Toolbar
- Google Webmaster Tools
- Google+
- Indexation Google
- L'entreprise Google
- Les API de Google
- Livres sur le référencement et les moteurs de recherche
- Outils
- PageRank
- R&D référencement
- Ranking Metrics
- Référencement Bing
- Référencement des images
- Référencement et PHP
- Référencement local
- Référencement Yahoo
- Référencement Yandex
- Réseaux sociaux
- Sitemaps
- Stratégies de liens
- Stratégies de mots-clés
- Techniques de référencement
- Webmastering
- WebRankInfo
- YouTube
Sites de l'annuaire
- SEO PLUG : Moteur de recherche dédié 100% SEO
- Alpha-Référencement :: Référencement gratuit, liens durs et annuaire généraliste
- Meta search
- e-referencement.be - belgique
- Tennis Search Engine - Tennis search - ATP - Players
- Search profiling
- Site dédié à l'information sur le référencement
- Astuces de référencement éthique - naturel - organique



8 janvier 2008 à 9:37
en tout cas il a déjà réussi à intéresser bcp bcp de monde avec son idée... même si bcp de personnes la dénigrent !
8 janvier 2008 à 11:27
Petite correction : les internautes ne peuvent pas encore noter chacun des résultats.
On peut faire joujou avec les étoiles (nos notes sont d'ailleurs enregistrées durant la session), mais ne sont pas sauvegardées puisque dès le premier essai, un message apparaît : "Sorry, these don't actually do anything yet :("
8 janvier 2008 à 12:21
La prise en compte des votes des internautes ne semble en effet pas encore tout à fait au point. Parfois j'ai eu le message indiquant que le vote n'était pas pris en compte, et parfois je ne l'ai pas eu. On se demande bien pourquoi cette version alpha est accessible à tous car elle n'est vraiment pas opérationnelle...
8 janvier 2008 à 14:14
Il faudrait faire des tests relatifs à la gestion des redirections 301 par Wikia Search...
[fr.indexweb.info] qui est redirigé depuis juillet 2006 sur [annuaire.indexweb.info] apparaît dans les résultats...
8 janvier 2008 à 19:04
Perso, même si les résultats retournés m'ont un peu surpris, je n'oublie pas que ce n'est que le début, et que l'intérêt d'un tel moteur de recherche est justement d'évoluer avec le temps... comme un bon vin.
Alors attendons...
9 janvier 2008 à 1:16
Quelqu'un a une idée sur les techniques de référencement à adopter pour être référencé sur Wikia ? J'ai tapé le nom d'une marque d'un de mes clients qui est premier sur Google avec sa marque et qui là n'y figure pas, c'est pourtant une marque assez connue...
Comment s'y prendre ?
Baptiste (Abdomain)
9 janvier 2008 à 4:42
HMmm, j'espère que ce moteur va se casser la tête.
ENtre une société qui emploie 15 000 personnes (même si c'est aux Etats Unis) et un ramassis de pechno qui veulent, on ne sait pour quelle raison au juste, faire le travail gratuitement....
9 janvier 2008 à 10:26
j'ai noté que les resultats retournés sont différents au singulier et au pluriels
10 janvier 2008 à 0:42
Moi je trouve ce moteur très crédible.
On a tendance à oublier que c'est une alpha...
28 janvier 2008 à 14:29
Le problème c'est que dès que les internautes pourront voter (pour du vrai), on imagine facilement la guerre qu'il va y avoir pour monter en tête du classement.