Quelles sont vos difficultés pour créer un moteur de recherche sans dépendre de Google ou Bing ?

  • Auteur de la discussion Auteur de la discussion RDTvlokip
  • Date de début Date de début
WRInaute discret
Salut à tous,

Je développe RDTvlokip Search depuis un moment, un moteur de recherche français que je gère entièrement seul. Pas d'API Google ou Bing derrière, tout est fait from scratch. On est autour de 3.4 millions de pages indexées aujourd'hui sur plus de 221 000 domaines.

Le crawler c'est clairement la partie la plus complexe. Gérer le respect des serveurs qu'on crawle, éviter les pièges à bots, le contenu dupliqué, les pages quasi-identiques générées à l'infini... c'est un chantier en continu et y'a toujours quelque chose qui cloche.

Sans parler du reste : scorer correctement les résultats sans les signaux comportementaux de Google, gérer le spam de sites générés à l'IA qui polluent l'index, tenir l'infra à un coût raisonnable...

Du coup je me demandais, même si vous n'avez jamais sauté le pas, juste le fait d'y avoir réfléchi sérieusement, c'est quoi les points qui vous semblent les plus difficiles ou bloquants ?

C'est faisable, j'en suis la preuve, mais la difficulté est immense...

Théo (alias RDTvlokip)
 
WRInaute impliqué
L'économie, le blocage des bots, et la pollution.

L'économie parce que crawler régulièrement, entretenir un index, stocker coûte de l'argent. Bing ou Google ont leurs propres machines, toi tu vas devoir passer par un intermédiaire qui prend une commission. De plus, eux ont leur propre régie publicitaire avec des clients. Quand tu démarres, tu es inconnu, et au mieux tu passe par une régie, qui prend une partie des revenus. Donc tu as des coûts plus élevés et moins de revenus, ce qui n'est pas évident pour démarrer.
Ensuite ils ont déjà une base d'utilisateurs fidèles, et ce sont des "gatekeepers" : Google peut mettre son moteur par défaut dans ses produits, Microsoft idem. Évidemment, en Europe on a un peu plus de choix puisqu'ils ne peuvent pas se contenter de mettre leur moteur sans proposer autre chose, mais de toute façon, cette sélection est limitée à d'autres moteurs déjà assez importants.

Et le blocage de bots... j'ai vu ton autre sujet, je pense que tu sais déjà bien de quoi je parle. Les sites déroulent le tapis rouge pour Googlebot, mais pour un moteur inconnu... ça n'est pas le même traitement.

Enfin la pollution, c'est de plus en plus ce dont tu parles : tous les sites générés par IA qui augmentent le bruit. Bruit que tu vas avoir du mal à limiter sans une équipe dédiée, et sans une audience importante. Par exemple, les moteurs utilisent les retours rapides aux SERP comme signal qu'un site est de faible qualité. Prenons une recherche populaire, disons "GTA 6". Si sur 10.000 recherches sur le sujet, le moteur détecte qu'un résultat provoque 500 retours rapides et que c'est sa limite pour le considérer comme inintéressant, il peut être écarté pour les 9.500 recherches suivantes. Si tu n'as que 100 recherches pour "GTA 6", tu n'as pas le volume suffisant pour avoir des échantillons statistiques qui t'aident à dépolluer.

Bien sûr, après il y a la qualité de l'algorithme. Avoir des équipes de cadors qui travaillent sur le sujet depuis de années est forcément un plus, quelque soit ton niveau si tu es seul. Non seulement ça mais il y a aussi toute une partie humaine qui a pu nettoyer les données ou en fournir pour entrainer/guider l'algorithme.

Donc en résumé : si tu veux faire un moteur généraliste digne de ce nom, c'est mission impossible. Ça demande beaucoup trop de capitaux, ça demande un temps de travail que tu ne pourras jamais abattre en une seule vie, même en t'acharnant comme un fou et en y sacrifiant tout ton temps.
Il ne faut pas que ce soit ton but premier, sinon tu vas t'épuiser et ne jamais y parvenir, et ça ne sera pas ta faute : les dés sont pipés.

Si tu fais ça pour le fun, pour apprendre, c'est très certainement un projet qui peut t'apporter de l'expérience. Je pense que c'est comme ça qu'il faut envisager les choses : il faut que tu cherches à apprendre à travailler sur un projet et essayer d'en retirer des choses pour toi, plutôt que d'espérer faire un très bon moteur et de t'épuiser à faire quelque chose de bien trop complexe pour une seule personne.

Si tu cherches la satisfaction de terminer quelque chose, je te recommande de trouver une idée de projet plus petit, où tu peux imaginer un état final, qui ne dépend pas d'un énorme volume de données (et les coûts qui vont avec), en particulier qui ne dépend pas de données que tu ne maitrises pas — ce qui est typiquement le cas d'un moteur, où tu te retrouves à essayer de classer honnêtement des pages qui sont pour une grande partie créées pour spammer et gruger les algos.

My two cents.
 
WRInaute discret
Merci pour ce retour réaliste. Vous avez raison sur les dés pipés économiquement et sur le volume. Mais je ne cherche pas à faire un moteur généraliste mondial. Mon objectif c'est le web francophone, une niche géographique et linguistique précise. Sur cette cible, les barrières sont différentes : le spam IA y est encore moins dense qu'en anglais, les concurrents indépendants sont quasi inexistants, et les communautés SEO FR sont accessibles directement. Et ce que vous décrivez comme "apprentissage", crawler, ranking, infra, sécurité, c'est déjà en prod sur 3.4M pages indexées et 221K domaines. C'est pas juste un exercice de style.
 
Dernière édition par un modérateur:
WRInaute discret
Vous décrivez aussi les barrières de 2015. Aujourd'hui les outils ont changé, SQLite FTS5, infras cloud accessibles, LLM pour le scoring sémantique, open source mature. Le contexte technique n'est plus le même. 3.4M pages en prod sur un Hetzner CPX32 en solo, c'est précisément la preuve que votre "mission impossible" a une date de péremption.
 
WRInaute impliqué
Vous décrivez aussi les barrières de 2015. Aujourd'hui les outils ont changé, SQLite FTS5, infras cloud accessibles, LLM pour le scoring sémantique, open source mature. Le contexte technique n'est plus le même. 3.4M pages en prod sur un Hetzner CPX32 en solo, c'est précisément la preuve que votre "mission impossible" a une date de péremption.
Comme je l'ai dit, c'est de toute façon un bon projet pour apprendre.
Je pense que tu n'as encore aucune conscience de ce qui sépare le tout début d'un projet où il y a un truc qui marche et c'est enthousiasmant, et un vrai produit viable qui accumule les utilisateurs. Je ne sais pas si tu connais la règle de 80/20, mais là on est sur du 99.9999/0.0001. Tu as à peine commencé.
Vu ton âge, c'est normal et crois-moi, je te dis ça sans condescendance. Et puis quelque part, c'est bien aussi de ne pas s'en rendre compte. Il y a même une citation là-dessus de Mark Twain : "Ils ne savaient pas que c'était impossible, alors, ils l'ont fait !"... il faut qu'il y ait de ça pour tout projet : de l'enthousiasme qui ignore un peu le status quo. Mais dans le cas présent, clairement, ça n'est pas possible.

Je l'ai écris avant : de toute façon c'est bien pour acquérir de l'expérience. La principale que tu peux recevoir n'est pas technique, mais concerne l'évaluation de la viabilité d'un projet, comment utiliser au mieux son temps, pour créer quelque chose qui intéresse/sert le mieux les gens.

Je finis avec un truc à propos de ton "Mon objectif c'est le web francophone, une niche géographique et linguistique précise".
Ça c'est une erreur. Ça n'est pas une force, car ceux qui jouent au niveau mondial ont une grosse partie commune à tous les pays, toutes les langues, et seulement une couche spécifique à chaque pays... alors que toi, 100% de ce que tu fais ne sert qu'un marché restreint.
 
WRInaute discret
La règle du 99.9999% je l'accepte, vous avez raison que je n'en suis qu'au début. Et merci pour la citation de Twain, elle résume bien l'état d'esprit.

Sur la niche francophone, je ne suis pas d'accord avec vous. Ce n'est pas une erreur, c'est une contrainte que je transforme en stratégie. Avec des ressources illimitées, oui, couvrir toutes les langues est une force. Avec un seul développeur et un budget contraint, c'est une dispersion mortelle.

Le raisonnement que vous appliquez vaut pour une équipe qui peut diviser le travail. Pas pour un projet solo. 100% de focus sur une cible définie, c'est la seule façon d'avoir une densité d'index, une qualité de scoring et une pertinence locale qui surpasse un généraliste distrait sur cette même cible.

Google comprend mal les petits sites FR, le contenu de niche francophone, les signaux locaux. C'est structurel, pas accidentel. C'est précisément là où la concentration paie.

Je ne cherche pas à battre Google globalement. Je cherche à être plus pertinent que lui sur un périmètre où sa taille même est un désavantage.
 
WRInaute discret
@kartyr Moi je recrawl à 30 jours par défaut, avec détection de changement, si la page n'a pas bougé, elle n'est pas réindexée.
C'est un compromis assumé : je priorise la couverture sur la fraîcheur extrême. Pour du contenu news en temps réel, effectivement je ne suis pas la cible. Sur le web francophone de fond, ça tient.
 
Nouveau WRInaute
Salut bien – et re-salut Théo.

Il y a un point que je n'ai pas vu abordé (ou je ne l'ai pas saisi au passage). Est-ce un projet visant à faire chauffer la gamelle ? Comptes-tu là-dessus pour vivre ? Parce que ça change tout, à mon avis.
 
Nouveau WRInaute
Salut,
Déjà respect pour avoir livré, honnêtement. C'est pas juste un projet de geek, c'est un vrai truc en production.

Sur les points bloquants que tu soulèves, j'en vois quelques-uns qui m'intéressent particulièrement :

Le crawl respectueux à grande échelle, c'est une fausse simplicité. Tu dis que c'est continu et y'a toujours quelque chose qui cloche. Je imagine que ça va bien au-delà du simple robots.txt et du crawl-delay. La distribution des requêtes entre serveurs, la détection des patterns de blocage agressif, la gestion des domaines qui deviennent inaccessibles... tout ça doit devenir vite chaotique quand tu grattes 220k domaines en permanence. T'es sur quoi pour la séquence d'extraction ? Quelque chose de custom ou une base existante améliorée ?

Le dupliquant, c'est ton vrai problem. Pas juste les clones évidents mais les variantes : même contenu avec 2-3 phrases changées, les sites qui dupliquent systematically d'autres avec du contenu auto-généré. Google a des signaux qu'on aura jamais (historique, authorité, liens), donc tu dois sortir des solutions maison pour distinguer. Je me demande comment tu handles ça côté index... tu cibles la détection au crawl ou à l'indexation ?

Scoring sans signaux comportementaux, c'est clairement ton plus gros handicap. Google dispose d'années de données utilisateur, positions de souris, temps passé, rebond... toi tu pars de zéro. Même si tu as le graph de liens et le contenu brut, tu vas toujours favoriser certains types de sites par défaut. Comment tu géres ce biais ? Et surtout, comment tu itères pour améliorer le ranking une fois que les utilisateurs commencent à donner du feedback ?

Ce qui m'intéresse aussi : comment tu décides où investir sur l'infra et où tu coupes ? Parce que scaling un moteur de recherche, c'est juste exponentiel en coûts. Stockage, calcul, bande passante pour la recherche. À quel moment tu décides "non, je vais pas indexer ce secteur" ou "je réduis la fréquence de crawl" ?

Honnêtement, le spam IA, c'est presque secondaire par rapport au reste. Les robots, c'est déjà impossible à bloquer totalement.

En tout cas bravo !
 
WRInaute occasionnel
La règle du 99.9999% je l'accepte, vous avez raison que je n'en suis qu'au début. Et merci pour la citation de Twain, elle résume bien l'état d'esprit.

Sur la niche francophone, je ne suis pas d'accord avec vous. Ce n'est pas une erreur, c'est une contrainte que je transforme en stratégie. Avec des ressources illimitées, oui, couvrir toutes les langues est une force. Avec un seul développeur et un budget contraint, c'est une dispersion mortelle.

Le raisonnement que vous appliquez vaut pour une équipe qui peut diviser le travail. Pas pour un projet solo. 100% de focus sur une cible définie, c'est la seule façon d'avoir une densité d'index, une qualité de scoring et une pertinence locale qui surpasse un généraliste distrait sur cette même cible.

Google comprend mal les petits sites FR, le contenu de niche francophone, les signaux locaux. C'est structurel, pas accidentel. C'est précisément là où la concentration paie.

Je ne cherche pas à battre Google globalement. Je cherche à être plus pertinent que lui sur un périmètre où sa taille même est un désavantage.
Désolée d'intervenir aussi tard dans la discussion. J'ai pris le temps de lire les différents échanges avant de réagir, et je pense que nous sommes finalement plus proches dans l'analyse qu'il n'y paraît.

Je rejoins complètement l'idée que la règle du 99,9999 % s'applique ici et que, lorsque l'on démarre un projet, la concentration des efforts est souvent indispensable. Sur ce point, je comprends parfaitement l'argument.

En revanche, je nuancerais l'affirmation selon laquelle Google comprendrait mal les petits sites francophones ou les contenus de niche. Mon expérience récente me conduit plutôt à penser que Google les comprend souvent assez bien, mais que les critères de visibilité sont devenus beaucoup plus exigeants.

Sur mon propre site, par exemple, je constate que Google identifie correctement mon activité, au point de générer un knowledge panel et de permettre à certaines recherches agentiques déployées hors d'Europe de restituer de manière cohérente mon positionnement. Cela ne me donne pas l'impression d'un problème de compréhension.

J'ai également repris récemment le site d'une paroisse qui n'avait pratiquement pas été entretenu depuis 2016. Le site était chargé de photos, peu optimisé et sans véritable travail SEO. Pourtant, Google l'avait déjà positionné sur les requêtes principales liées à son activité. Après quelques améliorations essentiellement techniques et éditoriales, davantage de webmastering que de SEO au sens classique, une première demande est arrivée via le formulaire de contact.

C'est pourquoi je crois que le défi actuel n'est plus seulement d'être compris par Google, mais d'être sélectionné parmi les sources considérées comme suffisamment fiables et pertinentes.

L'arrivée de la recherche agentique change profondément la donne. Les IA n'ont plus besoin de proposer dix liens bleus pour répondre à une question. Elles cherchent quelques sources qu'elles jugent crédibles et construisent leur réponse à partir de celles-ci.

Là où je vous rejoins totalement, c'est qu'un entrepreneur seul doit arbitrer ses ressources. La concentration est souvent une nécessité. Je pense simplement que l'enjeu principal n'est plus de compenser une prétendue incapacité de Google à comprendre les petits sites, mais d'être une alternative à Google pour les sites éditoriaux qui n'ont pas les moyens financiers ou techniques d'être visibles sur le Google de la recherche agentique afin de préserver ce qu'était au départ l'un des rêves du web...mais pour arriver à cela il faut que l'interface avec les sites soit compréhensible par les débutants et pas en langage technique, et ensuite il faut que le moteur de recherche soit promue auprès du grand public...car à quoi sert de référencer des sites sur un moteur de recherche si le moteur de recherche n'est pas utilisé par les personnes?
 
Nouveau WRInaute
car à quoi sert de référencer des sites sur un moteur de recherche si le moteur de recherche n'est pas utilisé par les personnes?
C'est l'éternel problème du cercle vicieux. Les personnes que tu évoques, c'est toi, moi, nous... À un moment donné, il faut franchir le pas et privilégier les solutions autres que le Gogol et son artillerie lourde. Je parle ici du côté des usagers de la Toile, pas des responsables de site. Il va falloir faire connaître les moteurs encore peu connus pour qu'il le soient de plus en plus (connus).

Vaste programme, je l'admets. Mais il y a un début à tout.
 
WRInaute discret
Salut bien – et re-salut Théo.

Il y a un point que je n'ai pas vu abordé (ou je ne l'ai pas saisi au passage). Est-ce un projet visant à faire chauffer la gamelle ? Comptes-tu là-dessus pour vivre ? Parce que ça change tout, à mon avis.
Salut Lion ! Non, je ne compte pas là-dessus pour vivre aujourd'hui. J'ai 20 ans, RDTvlokip Search c'est un projet sérieux mais je ne me mets pas de pression de rentabilité immédiate. L'objectif à terme c'est un modèle viable comme des services B2B autour de l'index, API, potentiellement d'autres choses mais je construis d'abord quelque chose qui tient techniquement. La monétisation vient après la traction, pas avant.
 
WRInaute occasionnel
C'est l'éternel problème du cercle vicieux. Les personnes que tu évoques, c'est toi, moi, nous... À un moment donné, il faut franchir le pas et privilégier les solutions autres que le Gogol et son artillerie lourde. Je parle ici du côté des usagers de la Toile, pas des responsables de site. Il va falloir faire connaître les moteurs encore peu connus pour qu'il le soient de plus en plus (connus).

Vaste programme, je l'admets. Mais il y a un début à tout.
Oui mais vu nos discussions sur l interface technique sur ce nouveau moteur de recherche j’ai du mal à me dire qu un débutant sur WordPress va comprendre nos échanges avec celui qui gère le moteur de recherche… quand je relis nos échanges je trouve mes codes json graph plus simples à comprendre….
 
WRInaute discret
Désolée d'intervenir aussi tard dans la discussion. J'ai pris le temps de lire les différents échanges avant de réagir, et je pense que nous sommes finalement plus proches dans l'analyse qu'il n'y paraît.

Je rejoins complètement l'idée que la règle du 99,9999 % s'applique ici et que, lorsque l'on démarre un projet, la concentration des efforts est souvent indispensable. Sur ce point, je comprends parfaitement l'argument.

En revanche, je nuancerais l'affirmation selon laquelle Google comprendrait mal les petits sites francophones ou les contenus de niche. Mon expérience récente me conduit plutôt à penser que Google les comprend souvent assez bien, mais que les critères de visibilité sont devenus beaucoup plus exigeants.

Sur mon propre site, par exemple, je constate que Google identifie correctement mon activité, au point de générer un knowledge panel et de permettre à certaines recherches agentiques déployées hors d'Europe de restituer de manière cohérente mon positionnement. Cela ne me donne pas l'impression d'un problème de compréhension.

J'ai également repris récemment le site d'une paroisse qui n'avait pratiquement pas été entretenu depuis 2016. Le site était chargé de photos, peu optimisé et sans véritable travail SEO. Pourtant, Google l'avait déjà positionné sur les requêtes principales liées à son activité. Après quelques améliorations essentiellement techniques et éditoriales, davantage de webmastering que de SEO au sens classique, une première demande est arrivée via le formulaire de contact.

C'est pourquoi je crois que le défi actuel n'est plus seulement d'être compris par Google, mais d'être sélectionné parmi les sources considérées comme suffisamment fiables et pertinentes.

L'arrivée de la recherche agentique change profondément la donne. Les IA n'ont plus besoin de proposer dix liens bleus pour répondre à une question. Elles cherchent quelques sources qu'elles jugent crédibles et construisent leur réponse à partir de celles-ci.

Là où je vous rejoins totalement, c'est qu'un entrepreneur seul doit arbitrer ses ressources. La concentration est souvent une nécessité. Je pense simplement que l'enjeu principal n'est plus de compenser une prétendue incapacité de Google à comprendre les petits sites, mais d'être une alternative à Google pour les sites éditoriaux qui n'ont pas les moyens financiers ou techniques d'être visibles sur le Google de la recherche agentique afin de préserver ce qu'était au départ l'un des rêves du web...mais pour arriver à cela il faut que l'interface avec les sites soit compréhensible par les débutants et pas en langage technique, et ensuite il faut que le moteur de recherche soit promue auprès du grand public...car à quoi sert de référencer des sites sur un moteur de recherche si le moteur de recherche n'est pas utilisé par les personnes?
Vous avez raison, et je reformule, le problème n'est pas que Google ne comprend pas les petits sites francophones. C'est qu'il les comprend et choisit de ne pas les montrer. La sélection, pas la compréhension. Ce n'est pas la même chose et c'est un point important.

Sur la recherche agentique, vous soulevez exactement ce qui me motive. Quand les IA synthétisent à la place de lister des liens, les petits sites éditoriaux disparaissent de fait. Pas parce qu'ils sont mauvais, mais parce qu'ils ne sont pas dans le corpus de référence des LLMs. Un moteur indépendant avec un vrai index francophone devient alors une infrastructure de survie pour ces sites.

Sur l'accessibilité de l'interface et la promotion grand public, vous avez raison que c'est un défi. C'est conscient et assumé comme étape suivante, pas comme angle mort.
 
WRInaute discret
Salut,
Déjà respect pour avoir livré, honnêtement. C'est pas juste un projet de geek, c'est un vrai truc en production.

Sur les points bloquants que tu soulèves, j'en vois quelques-uns qui m'intéressent particulièrement :

Le crawl respectueux à grande échelle, c'est une fausse simplicité. Tu dis que c'est continu et y'a toujours quelque chose qui cloche. Je imagine que ça va bien au-delà du simple robots.txt et du crawl-delay. La distribution des requêtes entre serveurs, la détection des patterns de blocage agressif, la gestion des domaines qui deviennent inaccessibles... tout ça doit devenir vite chaotique quand tu grattes 220k domaines en permanence. T'es sur quoi pour la séquence d'extraction ? Quelque chose de custom ou une base existante améliorée ?

Le dupliquant, c'est ton vrai problem. Pas juste les clones évidents mais les variantes : même contenu avec 2-3 phrases changées, les sites qui dupliquent systematically d'autres avec du contenu auto-généré. Google a des signaux qu'on aura jamais (historique, authorité, liens), donc tu dois sortir des solutions maison pour distinguer. Je me demande comment tu handles ça côté index... tu cibles la détection au crawl ou à l'indexation ?

Scoring sans signaux comportementaux, c'est clairement ton plus gros handicap. Google dispose d'années de données utilisateur, positions de souris, temps passé, rebond... toi tu pars de zéro. Même si tu as le graph de liens et le contenu brut, tu vas toujours favoriser certains types de sites par défaut. Comment tu géres ce biais ? Et surtout, comment tu itères pour améliorer le ranking une fois que les utilisateurs commencent à donner du feedback ?

Ce qui m'intéresse aussi : comment tu décides où investir sur l'infra et où tu coupes ? Parce que scaling un moteur de recherche, c'est juste exponentiel en coûts. Stockage, calcul, bande passante pour la recherche. À quel moment tu décides "non, je vais pas indexer ce secteur" ou "je réduis la fréquence de crawl" ?

Honnêtement, le spam IA, c'est presque secondaire par rapport au reste. Les robots, c'est déjà impossible à bloquer totalement.

En tout cas bravo !
Merci pour les questions, c'est le retour le plus technique du thread.

En extraction, j'ai un crawler custom en Python nommé RDTvlokipBot. Pas de base existante, tout est maison. La gestion des blocages agressifs c'est effectivement du continu, délais adaptatifs, respect strict des robots.txt, détection des patterns d'erreur par domaine.

Pour le contenu dupliqué. Les deux. Déduplication URL au crawl via Redis + Bloom filter. Détection de contenu quasi-identique à l'indexation. Les variantes à 2-3 phrases changées c'est le cas le plus chiant, je travaille sur des signatures de contenu mais c'est pas encore parfait.

Sur les scoring sans comportemental, 22 signaux vectorisés aujourd'hui : liens, structure, fraîcheur, densité sémantique... Le biais existe, je ne vais pas prétendre le contraire. L'itération se fait via les retours directs des webmasters pour l'instant, la Search Console que j'ai déployée aide aussi. C'est artisanal mais c'est honnête.

Et le dernier, arbitrage infra, j'ai le CPX32 Hetzner, 8GB RAM. Le volume dominant c'est le stockage FTS5. Les décisions de coupe sont pragmatiques : je n'indexe pas ce qui coûte cher en crawl pour peu de valeur ajoutée sur le web francophone.
 
WRInaute occasionnel
Oui et le plus grand défi si les communautés SEO vous suivent c'est aussi de ne pas tomber dans le piège de l'authority score avec un seo fait de backlinks achetés et de mots clés suroptimisés comme ce fut le cas pendant longtemps....car là aussi c'est injuste pour les petites entreprises, les associations, les indépendants...etc....
 
WRInaute discret
Oui et le plus grand défi si les communautés SEO vous suivent c'est aussi de ne pas tomber dans le piège de l'authority score avec un seo fait de backlinks achetés et de mots clés suroptimisés comme ce fut le cas pendant longtemps....car là aussi c'est injuste pour les petites entreprises, les associations, les indépendants...etc....
C'est un point auquel j'ai réfléchi. Mon scoring intègre une détection de spam cross-domain et un dédoublonnage intra-domaine, par exemple un site qui achète 500 liens depuis 3 fermes de liens ne va pas voir son score exploser. C'est loin d'être parfait mais la mécanique est là.
 
WRInaute occasionnel
Vous avez raison, et je reformule, le problème n'est pas que Google ne comprend pas les petits sites francophones. C'est qu'il les comprend et choisit de ne pas les montrer. La sélection, pas la compréhension. Ce n'est pas la même chose et c'est un point important.

Sur la recherche agentique, vous soulevez exactement ce qui me motive. Quand les IA synthétisent à la place de lister des liens, les petits sites éditoriaux disparaissent de fait. Pas parce qu'ils sont mauvais, mais parce qu'ils ne sont pas dans le corpus de référence des LLMs. Un moteur indépendant avec un vrai index francophone devient alors une infrastructure de survie pour ces sites.

Sur l'accessibilité de l'interface et la promotion grand public, vous avez raison que c'est un défi. C'est conscient et assumé comme étape suivante, pas comme angle mort.
Je partage une partie de votre analyse, mais je pense qu'il faut peut-être nuancer certains points à la lumière de l'histoire même des technologies utilisées par Google.

Les mécanismes de réconciliation d'entités et de Knowledge Graph souvent associés aujourd'hui au GEO ou à la recherche agentique ne sont pas apparus avec Gemini ou les AI Overviews. Plusieurs des brevets qui structurent cette logique remontent à plus de 10 ans.

Par exemple :

  • US 8,682,887 (déposé autour de 2010, accordé en 2014) décrit des mécanismes permettant de vérifier l'identité d'auteurs à travers différentes propriétés web et de mesurer leur autorité à partir de signaux de cohérence et d'expertise.
  • US 9,141,723 (déposé vers 2012, accordé en 2015) porte sur l'attribution de scores d'autorité directement à des nœuds d'un Knowledge Graph plutôt qu'à de simples documents.
  • US 10,318,623 (déposé vers 2015, accordé en 2019) décrit des processus de réconciliation d'entités fondés sur la comparaison d'attributs multiples afin de déterminer si plusieurs références numériques désignent une même entité réelle.
  • US 10,482,082 (déposé vers 2017, accordé en 2019) décrit des systèmes où les résultats peuvent être évalués selon l'autorité d'une entité et ses relations dans un graphe de connaissances plutôt que selon les seuls signaux traditionnels de popularité.
Ces travaux sont largement antérieurs à la recherche générative actuelle.

D'ailleurs, à cette époque déjà, Google allait parfois jusqu'à créer lui-même certaines fiches Google My Business lorsqu'il détectait l'existence d'une activité économique réelle à partir de données publiques. Cela montre que l'objectif consistant à identifier les entreprises du monde réel ne date pas de l'ère des LLM.

Là où je pense que le débat devient plus intéressant, c'est sur la manière dont cette réconciliation fonctionne réellement.

Les brevets décrivent précisément des systèmes fondés sur l'accumulation et la comparaison de signaux multiples.

Dans les logiques de réconciliation d'entités, les moteurs cherchent à rapprocher :

  • noms d'entreprise,
  • adresses,
  • numéros de téléphone,
  • sites web,
  • profils sociaux,
  • auteurs,
  • données structurées,
  • citations externes,
  • relations entre entités.
Autrement dit, la réconciliation ne se produit pas automatiquement. Elle ne repose ni sur la simple existence d'un site web ni sur l'ajout d'un balisage Schema.org ou d'un identifiant Google Business Profile.

Les systèmes décrits dans les brevets cherchent au contraire à calculer des niveaux de confiance à partir de la cohérence globale d'un ensemble de traces numériques reliées entre elles.

C'est pourquoi je suis parfois prudente lorsque certains présentent les optimisations GEO comme une simple optimisation technique.

Un code ajouté dans le head peut déclarer une identité. Il ne suffit pas à la faire reconnaître comme fiable.

Pour qu'une entreprise soit réellement réconciliée comme entité, il faut souvent un travail de fond sur :

  • l'ensemble des pages du site,
  • les auteurs,
  • les profils sociaux,
  • les annuaires,
  • les citations externes,
  • les données locales,
  • les mentions sur des sites tiers,
  • la cohérence globale de la présence numérique.
Les brevets montrent même que cette cohérence relationnelle constitue une partie du calcul de confiance accordé à l'entité. Nous sommes donc loin d'un mécanisme automatique ou instantané.

C'est peut-être là que je rejoins votre inquiétude.

Les brevets laissent effectivement entendre qu'une petite entreprise correctement identifiée peut théoriquement devenir une entité fiable au sein du graphe de connaissances, même sans disposer de la puissance de liens d'un grand groupe.

Mais dans la pratique, construire cette cohérence numérique globale demande du temps, des compétences et souvent des moyens financiers importants.

Le risque n'est donc peut-être pas que Google soit incapable de comprendre les petits acteurs. Les systèmes semblent au contraire avoir été conçus depuis longtemps pour tenter de les identifier.

Le véritable enjeu me paraît davantage économique : la capacité des petites structures à construire et maintenir une identité numérique suffisamment cohérente pour alimenter ces mécanismes de réconciliation. À l'échelle d'une PME, d'un artisan ou d'une petite association, cela représente parfois un investissement que toutes les structures ne peuvent pas assumer.

C'est probablement là que se situe aujourd'hui la fracture la plus réelle.
 
WRInaute discret
Je partage une partie de votre analyse, mais je pense qu'il faut peut-être nuancer certains points à la lumière de l'histoire même des technologies utilisées par Google...
C'est une analyse très éclairante, merci pour les références de brevets, c'est rare d'avoir ce niveau de détail dans une discussion.

Ce que vous décrivez confirme finalement le positionnement que je vise. Si la reconnaissance en tant qu'entité fiable chez Google nécessite un investissement que toutes les petites structures ne peuvent pas assumer, un moteur indépendant qui classe sans exiger cette cohérence numérique globale devient une alternative concrète. Pas un substitut à Google, mais un espace où exister sans avoir les moyens de jouer le jeu de la réconciliation d'entités.

La fracture que vous identifiez, c'est précisément le problème que j'essaie d'adresser à mon échelle.
 
WRInaute occasionnel
Alors vous rejoignez sans le savoir les frontières de l’économie circulaire et de l’ESS…. Voilà maintenant il faut que votre moteur soit au point et un fois que votre projet est au point techniquement j’aimerais parler de votre moteur dans ma prochaine newsletter… toutefois il va vous falloir lui trouver un nom plus mémorable
 
WRInaute occasionnel
Après il faudra une charte d'engagement vis à vis des sites éditeurs et des utilisateurs du moteur de recherche mise en avant dès la homepage....avec signatures...et ensuite on pourra relayer cela sur chacun de nos sites en faisant circuler les backlinks et en indexant les pages sur google...je veux bien faire le json graph...en soutien du projet....
 
WRInaute occasionnel
Lorsque j'évoquais la fraîcheur des résultats, je voulais parler de la détection, de l'indexation et de l'ajout de contenu nouvellement créé très rapidement, voire quasi instantanément lorsqu'il s'agit de contenu en rapport avec l'actualité.

Si l'on entre un peu plus dans les considérations techniques, il faut mieux identifier le sens d'un mot ou d'une phrase par rapport au contexte de la page et de la requête. Je n'apprendrai à personne qu'un mot ou une phrase n'a pas toujours le même sens en fonction du contexte.

Il ne faut pas non plus se contenter des mots exacts. Il faut déjà prendre en compte l'orthographe approximative de certains éditeurs de sites... et de certains utilisateurs. Un "s" oublié, une lettre en moins, etc. Parfois, lorsqu'on fait une recherche, même de bonne foi, on ne connaît pas toujours l'orthographe exacte d'un mot ou d'un nom. D'où la nécessité d'employer un algorithme de stemming ("racinisation" si l'on veut rester en français) et des méthodes de phonétisme; il existe de nombreuses approches plus ou moins adaptées à la langue française (ces méthodes fonctionnent généralement mieux en anglais).
 
WRInaute discret
Alors vous rejoignez sans le savoir les frontières de l’économie circulaire et de l’ESS…. Voilà maintenant il faut que votre moteur soit au point et un fois que votre projet est au point techniquement j’aimerais parler de votre moteur dans ma prochaine newsletter… toutefois il va vous falloir lui trouver un nom plus mémorable
Merci beaucoup, ça me touche vraiment. Je serais honoré d'être mentionné dans votre newsletter quand le projet sera au point. Sur le nom, je comprends que RDTvlokip ne soit pas immédiatement mémorable pour tout le monde, mais c'est volontaire. C'est mon identité de développeur depuis des années, je préfère garder cette cohérence plutôt que d'adopter un nom marketing générique.
 
WRInaute discret
Après il faudra une charte d'engagement vis à vis des sites éditeurs et des utilisateurs du moteur de recherche mise en avant dès la homepage....avec signatures...et ensuite on pourra relayer cela sur chacun de nos sites en faisant circuler les backlinks et en indexant les pages sur google...je veux bien faire le json graph...en soutien du projet....
Merci pour ces propositions, c'est très généreux. Je vous envoie un message privé sur le forum pour qu'on puisse en discuter concrètement.
 
WRInaute discret
Lorsque j'évoquais la fraîcheur des résultats, je voulais parler de la détection, de l'indexation et de l'ajout de contenu nouvellement créé très rapidement, voire quasi instantanément lorsqu'il s'agit de contenu en rapport avec l'actualité...
Sur le stemming et la désambiguïsation, c'est déjà en place, un stemming français maison avec environ 80 suffixes et gestion des pluriels irréguliers, plus un modèle BERT-like maison avec environ 20M paramètres entraîné sur des requêtes françaises pour la désambiguïsation contextuelle. La correction orthographique aussi.

Sur la fraîcheur pour l'actualité, j'ai une section dédiée, l'Explorer, qui agrège 22 flux RSS francophones (Tech, Actu, Science, Économie, Culture, Sport) mis à jour toutes les 15 minutes. C'est séparé de l'index principal, mais ça couvre le besoin d'actu en temps réel sans impacter le crawl budget.
 
WRInaute occasionnel
Oui je comprends votre position sur le nom, néanmoins si les grandes marques ont choisi certaines sonorités ce n'est pas pour elles mais pour les utilisateurs....c'est toute la différence entre le branding et le storytelling pensé depuis le fondateur....je vous laisse réfléchir.
 
WRInaute discret
Oui je comprends votre position sur le nom, néanmoins si les grandes marques ont choisi certaines sonorités ce n'est pas pour elles mais pour les utilisateurs....c'est toute la différence entre le branding et le storytelling pensé depuis le fondateur....je vous laisse réfléchir.
C'est un point que je prends en compte, merci. La question du nom reviendra probablement quand le projet atteindra une masse critique d'utilisateurs.
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut