Projet de création d'un moteur OPEN-SOURCE

Nouveau WRInaute
Bonjour,

Ces derniers mois un travail conséquent et un vrai virage semble avoir été réalisé par les développeurs de google, une "trac aux sorcières" semble avoir été mise en place pour mettre les tricheurs hors jeu.

Malheureusement au passage de nombreux sites honnêtes sont victimes d'un effet sandbox, ou se retrouvent tout simplement très pénalisés dans les résultats de google.

Je fais partie de ceux là... la toute puissance d'Oncle Google commence sérieusement à me préoccuper. Je parle "d'Oncle" parce que tout le monde aime bien google, c'est le moteur de recherche à la mode, avec raison d'ailleurs parce que je suis obligé d'admettre qu'il affiche les résultats les plus pertinents.

Je suis l'auteur d'un site qui présente des scripts PHP gratuits : -http://www.alexphpteam.com/, la seule contrepartie pour les utilisateurs de ces derniers est de laisser un lien vers mon site. Le script de livre d'or est assez populaire, de nombreux sites l'utilisent et pointent donc vers la page alexphpteam.com. J'étais très bien référencé depuis des mois, voire des années, et depuis plusieurs semaines mon classement dégringole progressivement, au point que j'apparais désormais en page 8 pour la requête "scripts php" : https://www.google.fr/search?q=scripts+p ... t=70&sa=... ou j'apparaissais pourtant sur la première page il n'y a encore pas si longtemps.

Visiblement ce cher Oncle Google me considère désormais comme un spammeur, tous les liens qui pointent vers mon site avec la même forme et le même texte sont en train, petit à petit, de couler mon nom de domaine.

Je suis le capitaine d'un navire en train de sombrer dans les profondeurs des entrailles d'un ogre affamé, sournoisement devenu en quelques années le dictateur bien aimé de l'empire du Web. Doit-on continuer à fermer les yeux sur cette ascension rapide vers des sommets inconnus, ce monopole anarchiste et sans limites ?

Au rythme actuel, Google sera au minimum, dans quelques années, l'égal de Microsoft. Le Web et l'informatique en général seront dominés par deux géants américains intouchables.

Face à Windows il existe Linux dans le domaine des OS, au niveau des moteurs de recherche aujourd'hui, à ma connaissance, aucun projet libre n'existe. Je lance un appel à toutes les personnes volontaires, diposant de connaissances en informatique, en programmation, en mathématiques, en graphisme, j'aimerais qu'une grande réflexion soit lancée avec pour objectif ultime la mise en place d'un moteur de recherche performant et open-source.

Les millions de ressources CPU nécessaires à son fonctionnement pourraient très simplement être basées, elles aussi, sur la collaboration d'ordinateurs du monde entier. Comme cela existe déjà, il suffit de développer un soft qui se charge de récupérer des traitements à effectuer sur Internet, puis de réaliser les calculs lorsque la machine n'est pas utilisée.

Je dispose de connaissances solides en PHP et C++, je pourrai m'impliquer directement dans le développement de l'algorithme de recherche. Avec l'aide de mathématiciens et de dizaines de développeurs, nous pouvons créer un algorithme solide, fiable, évolutif et entièrement ouvert aux référenceurs. Il n'y aura plus de secrets quant à la façon d'apparaître dans les meilleures positions, lorsqu'une technique de fraude sera détectée nous pourrons régair rapidement, les sites de spammeurs pourront être dénoncés et rapidement supprimés de l'index, un système de notation de chaque site par les visiteurs pourrait également être intégré... les possibilités sont innombrables.

J'attends toutes vos réponses et éventuelles propositions, l'idéal serait de former un groupe de travail initial pour la mise en place d'un site Internet dédié à ce projet. Le développement du moteur de recherche en lui même pourra suivre rapidement.

Pour info un projet de ce type existe déjà : http://www.mozdex.com, mais de la publicité signée Oncle Google est affichée sur la page des résultats et l'esprit dans lequel il a été conçu ne correspond pas à ce que j'aimerais mettre en place.

J'attends vos réactions.

Alex
 
WRInaute accro
Je suis le capitaine d'un navire en train de sombrer dans les profondeurs des entrailles d'un ogre affamé, sournoisement devenu en quelques années le dictateur bien aimé de l'empire du Web.
j'aime bien la comparaison :)

sinon, concernant ton idée de moteur open source, je toruve ca bien (et serait partant, au moins pour en discuter)
cependant, sans un gros soutien, je doute que ce soit vraiment faisable.
on peut evidemment prendre exemple sur firefox, qui arrive doucement à rattraper internet explorer, mais qui a le soutien de mozilla.

quant à mozdex, j'ai une erreur dns de mon coté.
 
Nouveau WRInaute
Je viens de corriger l'url de mozdex.com, c'est un projet qui existe depuis 2003 mais qui semble à l'abandon et qui ne correspond pas à ce que j'aimerais mettre en place.

La réussite dépend de l'envie et de la motivation des personnes bénévoles qui travailleront sur leur temps libre pour mettre en place un projet d'une telle ampleur. Le soutien financier n'est pas nécessaire dans un premier temps, nous devons d'abord mettre en place les fondations et réunir un groupe de travail réellement motivé.

Une dizaine de personnes me semble idéal pour lancer le projet, j'habite à Paris et nous pourrons éventuellement discuter de tout cela autour d'un verre avec les personnes intéressées.
 
WRInaute impliqué
Le projet est très beau mais mérite une très profonde réflexion :

Il n'y aura plus de secrets quant à la façon d'apparaître dans les meilleures position,

Super, et sur quels critères ? au plus offrant ? A celui qui aura fait le plus de vote positifs vers son propre site ?

Je pense que ce qui fait justement la puissance d'un moteur, c'est en partie le mystère de son algorythme de classement, car si tout le monde sait comment être premier, il n'y aura que des premiers...

lorsqu'une technique de fraude sera détectée nous pourrons régair rapidement, les sites de spammeurs pourront être dénoncés et rapidement supprimés de l'index,

Il n'est pas difficile de retirer un site d'un index, mais là encore sur quels critères ? Comment délimiter la triche volontaire de celle "involontaire" imposée justement par des critères subjectifs comme le fait de Google par exemple (pour exemple le fait de proscrire la balise noscript alors qu'il n'y a pas d'alternative aux menus en javascript et qu'elle est par ailleurs très utile au non-voyants...)

D'autre part, je trouve que le système de dénonciation des spammeurs est une très mauvaise chose car elle entretient cette bassesse humaine qu'est l'esprit de délation. La encore pour moi c'est une faille des moteurs incapable de gérer ça tous seuls et non quelque chose dont il faut être fier car cela s'appuit sur quelque chose de très connu par les dictateurs : diviser pour mieux régner...

un système de notation de chaque site par les visiteurs pourraient également être intégré

La aussi tu vois, je suis complètement contre. Je peux voter tous les jours pour mon site ou payer des gens pour le faire pour faire croire qu'il est populaire. Cela se pratique d'ailleurs sur certains annuaires. Mais là encore, en quoi un site qui aura plein de vote bidon serait-il plus intéressant qu'un autre qui aura moins de votes parce qu'il n'aura pas voulu entrer dans ce type de compétition...

Je suis peut-être un peu dur mais je pense que si autant de moteurs ne décollent pas, c'est que les problèmes liés à la pertinence des résultats est une chose très complexe.

Enfin, il y a une chose dont je suis convaincu et à laquelle on s'intéresse très peu. Pour moi, le moteur du futur sera celui qui s'intéresse au visiteur et non au webmaster... Je veux dire par là que ton raisonnement est celui d'un webmaster et non d'un utilisateur. Pourtant le moteur est, me semble-il, destiné d'abord au visiteur... Le jour où il y aura une véritable prise de conscience de cette évidence, beaucoup de choses évolueron. Et c'est ce que semblent avoir compris certains moteurs tels Ujiko par exemple. Tu verras que les critères de pertinences ne sont pas placé là ou on les attends et tant mieux. En effet, il n'y a pas une pertinence, mais chaque utilisateur à la sienne propre pour différentes raisons. Du coup, la notion même de classement est une chose tout à fait subjective. Et Ujiko t'offre pas mal de possibilités, en tant qu'utilisateur, de ce côté.
De l'autre côté tu a Google avec son lien "j'ai de la chance" qui t'impose LE site que LUI classe en premier, en te faisant croire que c'est LE site que tu cherche, et qu'il n'y en a pas d'autre possible, puisque c'est LUI qui l'a classé premier...

Tout cela merite réflexion non ?
 
Nouveau WRInaute
code a dit:
Tout cela merite réflexion non ?
Oui, et c'est justement pour cela que j'ai ouvert ce topic.

code a dit:
Super, et sur quels critères ? au plus offrant ? A celui qui aura fait le plus de vote positifs vers son propre site ?
Les critères sont très nombreux et extrêmement complexes, le projet sera évolutif et les algorithmes améliorés au fil des propositions et des années. Je n'ai pas dis que dans un mois nous aurons un moteur capable d'être un concurrent sérieux au monopole de google. Même si le code est accessible aux référenceurs, celui ci devra justement être optimisé pour être capable d'effectuer une sélection basée sur des critères fiables qui prendront en compte le contenu du site et qui ne pourront pas être faussés par des techniques de type spam.

Concernant la délation, celle ci pourra être à titre purement informatif. Certains sites utilisent des adresses miroirs à outrance qui peuvent très simplement être supprimées d'un index, c'est une forme évidente de tricherie très utilisée aujourd'hui. Des règles précises pourront être établies afin que tous ces éléments ne soient pas réalisés au hasard.

En ce qui concerne les votes, seuls ceux qui seront accompagnés de commentaires détaillés pourraient être pris en compte. Tes arguments sont tout à fait recevables, la triche pourrait perturber ces résultats, néanmoins ca n'était qu'un idée parmis d'autres et nous pourrions peut être trouver des parades.

Je partage l'idée que tu évoques dans ta dernière réflexion. Néanmoins ce sont les Webmasters qui sont les artisans du Web, si le référencement deviens uniquement une affaire de gros sous dans les années à venir les multi-nationales vont s'emparer de tous les secteurs stratégiques et les petits Webmasters indépendants risquent de ne plus avoir leur place. Je suis persuadé que des solutions équitables pouvant convenir à tous peuvent être trouvées. C'est justement l'objet de ce débat.
 
WRInaute discret
Faire un moteur ?? y'en a pas assez ?

on pourrait dire non vu le nombre de moteurs de recherche que nous connaissons, mais n'est-ce pas tout simplement parce que les "petits moteurs" restent invisibles ?

ils restent invisibles car ne sont pas révolutionnaires : si l'on se base sur les "techniques classiques" de recherche d'informations alors nous ne pouvons pas concurrencer des moteurs comme GG
(ne serait ce que du point de vue du nombre d'ingénieurs)

Le problème (et donc tout le travail) est de trouver LE concept
(qui peut soit dit en passant exister mais ne pas etre appliqué)

une piste ? du coté du web sémantique et des ontologies pourquoi pas ?!
 
WRInaute discret
Rien que la provenance de ta motivation révèle l'avenir de ta proposition : l'echec, et biensur la non-concrétisation.

Tout simplement car moi (c'est mon avis) je trouve google tres bien, MSN Search qui monte, Yahoo qui s'améliore, et plein de concurent. Je suis partisan du movement open-source qui passionne d'ailleurs la majorité, mais faut inové, recherché, des chose revolutionnaire, pas aller concurencer n'importe quoi.

Et puis je comprend pas moteur open-source, ca voudrais dire qu'on aurait access à l'algo ? c ridicule, et puis qui payera les frais de server ? lol
 
WRInaute accro
ca me rappelle mes 20 ans :roll: :lol: persuadé que j'étais le nouveau génie qui allait révolutionner l'informatique :lol:

C'est beau la jeunesse ... naif mais beau :lol:
 
WRInaute passionné
Je crois que peu importe l'algo du moteur, l'important est d'attiré le visiteur. Les forcer à le mettre en page de démarrage, genre une saloperie de spyware déjà rapportera pas mal de visiteurs. Et puis on en parlerait dans la presse en mal mais cela n'est pas grave, cela lui donnera déjà une cote de popularité.

non ?
 
WRInaute passionné
Alex1200 a dit:
Face à Windows il existe Linux dans le domaine des OS, au niveau des moteurs de recherche aujourd'hui, à ma connaissance, aucun projet libre n'existe.

Linus Thorvald n'est pas partis de zéro. Le premier noyau était basé sur Minix, developpé par Andew Tannenbaum ( Université des sciences d'Amsterdam). Je ne sais plus si Linus était étudiant ou non de Tannenbaum.
Une passe d'arme célèbre entre Linus et Tannenbaum doit être quelques part dans les archives du Net.

Si tu veux lancer un projet Open-source aujourd'hui "le plus simple" est de se baser sur les projets existants.

Alex1200 a dit:
Je dispose de connaissances solides en PHP et C++, je pourrai m'impliquer directement dans le développement de l'algorithme de recherche.

Si tu veux développer en C++, tu as comme base :

En C++/C tu as :
http://www.aspseek.org/ : Excellent projet en C++, mais en sommeil depuis 2002. Bonne base de travail pour dériver une nouvelle branche.

En terme d'outil
http://larbin.sourceforge.net/index.html : un crawler performant. Larbin est une "coquille vide", a toi d'implémenter les fonctions dont tu as besoins.

La boîte à outil de Loic Dachary ( Ancien moteur Ecila ) :
Unac, URI, mifluz, webbase
http://www.senga.org/

Souvent ces devs (larbin, senga) viennent de jeunes chercheurs qui bossaient à l'INRIA.
Les ressources informatiques pour un tel projet elles sont là ( et dans quelques grands laboratoires universitaires de 3° cycle ).

courage...
 
WRInaute passionné
Je ne pense pas qu'un moteur open sources soit viable. Un algorithme public serait générateur d'un spam massif qui tuerait la pertinence du moteur... et donc son utilité fondamentale.
 
Nouveau WRInaute
Merci pour le lien jf_h, c'est un projet très intéressant que je vais surveiller.

Je comprends les réserves de chacun, ce projet peut paraître sur ambitieux et démesuré. Et pourtant...

Je suis persuadé que de nouvelles idées peuvent émerger dans les années à venir au niveau de la recherche d'informations sur Internet. Un aspect m'intéresse particulièrement : les statistiques d'accès à chaque site. On pourrait en effet imaginer fournir un code invisible à chaque Webmaster pour mesurer diverses informations très utiles pour vérifier la popularité d'un site : combien de temps reste chaque visiteur sur une page, combien de pages a-t-il visité sur le site, est-il revenu dans les jours qui ont suivi, combien de visiteurs ont tapé l'adresse directement dans leur navigateur pour aboutir sur le site, etc. Ces éléments particulièrement intéressants pourraient permettre d'établir un classement pertinent sur l'attrait de chaque site, excluant naturellement les sites sans intérêt.

Le problème du serveur pour stocker les milliers de gigas octets nécessaires au moteur pourrait peut être se résoudre avec des partenaires intéressés pour associer leur image à un tel projet. Je pense à Free.fr par exemple. Néanmoins cet élément est secondaire, lorsque nous aurons besoin d'espace de stockage conséquent c'est que la première version du projet sera achevée et qu'elle sera suffisamment aboutie pour être présentable.

Zecat a dit:
C'est beau la jeunesse ... naif mais beau :lol:
Cet état d'esprit est typiquement français, ce sont principalement les américains qui innovent actuellement dans le secteur de l'informatique principalement à cause de cela. On ne croît pas suffisamment en soi et en ses idées en France, par frilosité d'esprit, c'est dommage.
 
WRInaute passionné
La difficulté va être de trouver des critères de classement peu spammables. Google le fait de mieux en mieux, mais avec une consommation de ressources matérielles pharaonique.
 
Nouveau WRInaute
MagicYoyo a dit:
Google le fait de mieux en mieux, mais avec une consommation de ressources matérielles pharaonique.
L'intérêt d'un moteur de recherche collaboratif réside justement dans cet aspect : nous pourrions utiliser des milliers de machines à travers le monde pour effectuer tous les calculs permanents nécessaires.

C'est une vision idéaliste basée sur la popularité et le succès du moteur, néanmoins dans la théorie c'est tout à fait faisable.
 
WRInaute passionné
Alex1200 a dit:
L'intérêt d'un moteur de recherche collaboratif réside justement dans cet aspect : nous pourrions utiliser des milliers de machines à travers le monde pour effectuer tous les calculs permanents nécessaires.

c'était l'objectif de Grub :
http://grub.org : Grub's Distributed Web Crawling Project

c'était...... merci LookSmart !

The Grub crawling project is no longer operational. Inquiries about the Grub distributed computing software should be directed to: LookSmart, Ltd
 
WRInaute discret
bizarre, sur mozdex, qd je fais une recherche, le jsp de resultat n'est pas interpreté et on récupere carremenet le code source JSP !! (ya rien d'interessant) !

ca doit etre en panne...
 
WRInaute impliqué
Je pense qu'un bon moteur doit rester une boite noire. Google sait très bien ce qu'il fait. S'il ne donne pas plus d'information sur ses algorithmes, c'est qu'il n,a pas avantage à le faire. De plus, il y a déjà des tonnes de moteurs de recherche. Est-ce que quelqun va vraiment vouloir analyser ton algorithme pour se positioner sur un moteur de recherche inconnu? Bonne chance...
 
WRInaute discret
Alex1200 a dit:
Bonjour,
Ces derniers mois un travail conséquent et un vrai virage semble avoir été réalisé par les développeurs de google, une "trac aux sorcières" semble avoir été mise en place pour mettre les tricheurs hors jeu.
VIRAGE DE M....
Qu'il traque, autant qu'il veut, mais DANS TOUS LES CAS il le fait pour le FRIC !
Il n'y a rien d'honnête chez Goo depuis qu'il est entré en bourse, que des HISTOIRES de POGNON :
------------------------------------
SI PERSONNE NE L'A ENCORE REMARQUE :
------------------------------------
Si on est en ETE, il FILTRE les mots VAC*NCES S*LEIL PL*AGE
Si on est en HIVER, il filtre P*RE N*EL et CAD*UX N*EL


Alex1200 a dit:
Les critères sont très nombreux et extrêmement complexes
C'est bien pour ça que notre pote Gogole te filtre aux pèriodes les plus propices a faire du Fric, comme les fetes de fin d'année, par exemple !


MagicYoyo a dit:
.../... des critères de classement peu spammables : Google le fait de mieux en mieux.
PIPO : il place les sites EN FONCTION des PERIODES et de leur VALEUR COMMERCIALE, UNIQUEMENT !
- Pour preuve, il y a un mois j'apparaissais EN TETE sur les requêtes P*re N*el, et depuis Fin Nov/début Décembre, j'suis en page 8543 !

- Et j'ajoute que ce sont des pages considèrées comme -illégales- par notre amis l'Gol, qui apparaissent en TETE sur ces requêtes !

GOGOLE ne fait QUE DU FRIC, et TUE par la même occasion les PETITS WEBMASTERS HONNETES !

- Pour ma part je vis SANS M'INQUIETER de LUI, QU'IL CREVE la gueule ouverte, depuis près d'un AN, depuis sa mise en BOURSE, il met dix ans a crawler certains de mes sites, il -blackliste- ceux qui ont trop de mots commerciaux dans le nom de domaine, il ramène entre 10 et 15% de mon trafic, et en plus sur des sites qui affichent ses ADSENSE ..

C'est FRANCHEMENT MINABLE, et IL EST L'HEURE de vous REVEILLER : Quand je tape mes requêtes sur "search.msn.fr", j'ai plus aucun bleme, et pourtant Dieu sait si je ne l'aime pas non plus celui la, le Père BILLY !

Je CONSTATE que dans tous les cas, ce sont des RICAINS qui boycottent le biz des MOTEURS de RECHERCHE FRANCOPHONES, et MOI ca me FATIGUE ..

Les -anciens- reconnaitront qu'il fut une époque ou le ROI était YAH*0, et sans lui tu bouffais pas non plus a ce moment là : Jusqu'au jour où il a décidé qu'il fallait PAYER pour apparaître dans les p*t.. de pages de son moteur et de son annuaire ..

De là a essayer de les "griller", FAUT PAS REVER MON Gâââ ..

T'EMMERDE PAS :
---------------
- Si t'es mal placé chez l'un, essaye l'autre, et BASTA !

Et j'espère bien que G** va MOURRIR dès la sortie de IE 7.0, qu'il comprenne ses ERREURS vis a vis des gens HONNETES, ce bouffon !

Pour ma part, je bouffe SANS LUI, sa SANDB*X, et ses blacklistages de mmmm, depuis 2 (DEUX) ANS !

A bon entendeur
Goo, la grande GUEULE !
 
WRInaute passionné
GoGueule a dit:
et depuis Fin Nov/début Décembre, j'suis en page 8543 !

Je voudrais pas te sapper le moral, mais tu as encore perdu 2 pages, tu est sur la 8545 maintenant! :lol:

Mais avec un caractère pareil, faut pas s'étonner que ton CR baisse! :wink:

PS: CR, c'est le dernier critère de l'algo de Google: le Cool Rank
 
Discussions similaires
Haut