Quelles sont vos difficultés pour créer un moteur de recherche sans dépendre de Google ou Bing ?

WRInaute discret
Salut à tous,

Je développe RDTvlokip Search depuis un moment, un moteur de recherche français que je gère entièrement seul. Pas d'API Google ou Bing derrière, tout est fait from scratch. On est autour de 3.4 millions de pages indexées aujourd'hui sur plus de 221 000 domaines.

Le crawler c'est clairement la partie la plus complexe. Gérer le respect des serveurs qu'on crawle, éviter les pièges à bots, le contenu dupliqué, les pages quasi-identiques générées à l'infini... c'est un chantier en continu et y'a toujours quelque chose qui cloche.

Sans parler du reste : scorer correctement les résultats sans les signaux comportementaux de Google, gérer le spam de sites générés à l'IA qui polluent l'index, tenir l'infra à un coût raisonnable...

Du coup je me demandais, même si vous n'avez jamais sauté le pas, juste le fait d'y avoir réfléchi sérieusement, c'est quoi les points qui vous semblent les plus difficiles ou bloquants ?

C'est faisable, j'en suis la preuve, mais la difficulté est immense...

Théo (alias RDTvlokip)
 
WRInaute impliqué
L'économie, le blocage des bots, et la pollution.

L'économie parce que crawler régulièrement, entretenir un index, stocker coûte de l'argent. Bing ou Google ont leurs propres machines, toi tu vas devoir passer par un intermédiaire qui prend une commission. De plus, eux ont leur propre régie publicitaire avec des clients. Quand tu démarres, tu es inconnu, et au mieux tu passe par une régie, qui prend une partie des revenus. Donc tu as des coûts plus élevés et moins de revenus, ce qui n'est pas évident pour démarrer.
Ensuite ils ont déjà une base d'utilisateurs fidèles, et ce sont des "gatekeepers" : Google peut mettre son moteur par défaut dans ses produits, Microsoft idem. Évidemment, en Europe on a un peu plus de choix puisqu'ils ne peuvent pas se contenter de mettre leur moteur sans proposer autre chose, mais de toute façon, cette sélection est limitée à d'autres moteurs déjà assez importants.

Et le blocage de bots... j'ai vu ton autre sujet, je pense que tu sais déjà bien de quoi je parle. Les sites déroulent le tapis rouge pour Googlebot, mais pour un moteur inconnu... ça n'est pas le même traitement.

Enfin la pollution, c'est de plus en plus ce dont tu parles : tous les sites générés par IA qui augmentent le bruit. Bruit que tu vas avoir du mal à limiter sans une équipe dédiée, et sans une audience importante. Par exemple, les moteurs utilisent les retours rapides aux SERP comme signal qu'un site est de faible qualité. Prenons une recherche populaire, disons "GTA 6". Si sur 10.000 recherches sur le sujet, le moteur détecte qu'un résultat provoque 500 retours rapides et que c'est sa limite pour le considérer comme inintéressant, il peut être écarté pour les 9.500 recherches suivantes. Si tu n'as que 100 recherches pour "GTA 6", tu n'as pas le volume suffisant pour avoir des échantillons statistiques qui t'aident à dépolluer.

Bien sûr, après il y a la qualité de l'algorithme. Avoir des équipes de cadors qui travaillent sur le sujet depuis de années est forcément un plus, quelque soit ton niveau si tu es seul. Non seulement ça mais il y a aussi toute une partie humaine qui a pu nettoyer les données ou en fournir pour entrainer/guider l'algorithme.

Donc en résumé : si tu veux faire un moteur généraliste digne de ce nom, c'est mission impossible. Ça demande beaucoup trop de capitaux, ça demande un temps de travail que tu ne pourras jamais abattre en une seule vie, même en t'acharnant comme un fou et en y sacrifiant tout ton temps.
Il ne faut pas que ce soit ton but premier, sinon tu vas t'épuiser et ne jamais y parvenir, et ça ne sera pas ta faute : les dés sont pipés.

Si tu fais ça pour le fun, pour apprendre, c'est très certainement un projet qui peut t'apporter de l'expérience. Je pense que c'est comme ça qu'il faut envisager les choses : il faut que tu cherches à apprendre à travailler sur un projet et essayer d'en retirer des choses pour toi, plutôt que d'espérer faire un très bon moteur et de t'épuiser à faire quelque chose de bien trop complexe pour une seule personne.

Si tu cherches la satisfaction de terminer quelque chose, je te recommande de trouver une idée de projet plus petit, où tu peux imaginer un état final, qui ne dépend pas d'un énorme volume de données (et les coûts qui vont avec), en particulier qui ne dépend pas de données que tu ne maitrises pas — ce qui est typiquement le cas d'un moteur, où tu te retrouves à essayer de classer honnêtement des pages qui sont pour une grande partie créées pour spammer et gruger les algos.

My two cents.
 
WRInaute discret
L'économie, le blocage des bots, et la pollution.

L'économie parce que crawler régulièrement, entretenir un index, stocker coûte de l'argent. Bing ou Google ont leurs propres machines, toi tu vas devoir passer par un intermédiaire qui prend une commission. De plus, eux ont leur propre régie publicitaire avec des clients. Quand tu démarres, tu es inconnu, et au mieux tu passe par une régie, qui prend une partie des revenus. Donc tu as des coûts plus élevés et moins de revenus, ce qui n'est pas évident pour démarrer.
Ensuite ils ont déjà une base d'utilisateurs fidèles, et ce sont des "gatekeepers" : Google peut mettre son moteur par défaut dans ses produits, Microsoft idem. Évidemment, en Europe on a un peu plus de choix puisqu'ils ne peuvent pas se contenter de mettre leur moteur sans proposer autre chose, mais de toute façon, cette sélection est limitée à d'autres moteurs déjà assez importants.

Et le blocage de bots... j'ai vu ton autre sujet, je pense que tu sais déjà bien de quoi je parle. Les sites déroulent le tapis rouge pour Googlebot, mais pour un moteur inconnu... ça n'est pas le même traitement.

Enfin la pollution, c'est de plus en plus ce dont tu parles : tous les sites générés par IA qui augmentent le bruit. Bruit que tu vas avoir du mal à limiter sans une équipe dédiée, et sans une audience importante. Par exemple, les moteurs utilisent les retours rapides aux SERP comme signal qu'un site est de faible qualité. Prenons une recherche populaire, disons "GTA 6". Si sur 10.000 recherches sur le sujet, le moteur détecte qu'un résultat provoque 500 retours rapides et que c'est sa limite pour le considérer comme inintéressant, il peut être écarté pour les 9.500 recherches suivantes. Si tu n'as que 100 recherches pour "GTA 6", tu n'as pas le volume suffisant pour avoir des échantillons statistiques qui t'aident à dépolluer.

Bien sûr, après il y a la qualité de l'algorithme. Avoir des équipes de cadors qui travaillent sur le sujet depuis de années est forcément un plus, quelque soit ton niveau si tu es seul. Non seulement ça mais il y a aussi toute une partie humaine qui a pu nettoyer les données ou en fournir pour entrainer/guider l'algorithme.

Donc en résumé : si tu veux faire un moteur généraliste digne de ce nom, c'est mission impossible. Ça demande beaucoup trop de capitaux, ça demande un temps de travail que tu ne pourras jamais abattre en une seule vie, même en t'acharnant comme un fou et en y sacrifiant tout ton temps.
Il ne faut pas que ce soit ton but premier, sinon tu vas t'épuiser et ne jamais y parvenir, et ça ne sera pas ta faute : les dés sont pipés.

Si tu fais ça pour le fun, pour apprendre, c'est très certainement un projet qui peut t'apporter de l'expérience. Je pense que c'est comme ça qu'il faut envisager les choses : il faut que tu cherches à apprendre à travailler sur un projet et essayer d'en retirer des choses pour toi, plutôt que d'espérer faire un très bon moteur et de t'épuiser à faire quelque chose de bien trop complexe pour une seule personne.

Si tu cherches la satisfaction de terminer quelque chose, je te recommande de trouver une idée de projet plus petit, où tu peux imaginer un état final, qui ne dépend pas d'un énorme volume de données (et les coûts qui vont avec), en particulier qui ne dépend pas de données que tu ne maitrises pas — ce qui est typiquement le cas d'un moteur, où tu te retrouves à essayer de classer honnêtement des pages qui sont pour une grande partie créées pour spammer et gruger les algos.

My two cents.
Merci pour ce retour réaliste. Vous avez raison sur les dés pipés économiquement et sur le volume. Mais je ne cherche pas à faire un moteur généraliste mondial. Mon objectif c'est le web francophone, une niche géographique et linguistique précise. Sur cette cible, les barrières sont différentes : le spam IA y est encore moins dense qu'en anglais, les concurrents indépendants sont quasi inexistants, et les communautés SEO FR sont accessibles directement. Et ce que vous décrivez comme "apprentissage", crawler, ranking, infra, sécurité, c'est déjà en prod sur 3.4M pages indexées et 221K domaines. C'est pas juste un exercice de style.
 
Dernière édition:
WRInaute discret
Vous décrivez aussi les barrières de 2015. Aujourd'hui les outils ont changé, SQLite FTS5, infras cloud accessibles, LLM pour le scoring sémantique, open source mature. Le contexte technique n'est plus le même. 3.4M pages en prod sur un Hetzner CPX32 en solo, c'est précisément la preuve que votre "mission impossible" a une date de péremption.
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut