Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant SEO

Consultant SEO depuis 2003, cofondateur de MyRankingMetrics. En savoir plus

  • Olivier Duffez sur LinkedIn
  • Olivier Duffez sur X (Twitter)
  • Chaine Youtube WebRankInfo

Sources affichées vs sources utilisées par les IA : ne confondez plus les deux

Quand une IA cite un site dans sa réponse, beaucoup en concluent : "voilà la source". C'est faux, et cette confusion vous fait travailler les mauvais leviers. Je vous explique la différence, avec un exemple concret à l'appui.

Résumez ou partagez cette page :

En résumé :

  • Le réflexe SEO classique : regarder les liens affichés en bas d'une réponse IA et croire qu'on tient « les sources ».
  • Le piège : ces liens affichés ne sont qu'une partie visible, parfois minuscule, de ce que l'IA a réellement exploité. Et selon le moteur, il n'y a parfois aucun lien affiché du tout.
  • La nuance de vocabulaire : une marque est mentionnée, un site est cité (avec ou sans lien cliquable), une source est une page réellement utilisée pour construire la réponse. Ce ne sont pas les mêmes choses.
  • L'action : pour piloter votre visibilité IA, il faut récupérer les sources réellement utilisées, ce qui passe le plus souvent par l'API et non par ce que vous voyez à l'écran.

Le réflexe qui induit en erreur

Le piège de la simplicité, c'est de croire trop vite ce qu'on voit...

Le scénario typique : vous posez une question à ChatGPT, la réponse mentionne deux ou trois sites, vous voyez aussi des liens dans le message, et vous concluez que ce sont les sources que l'IA a utilisées. Vous décidez alors d'aller chercher des mentions sur ces sites-là. Sauf que vous vous trompez de cible, et je vais vous montrer pourquoi.

✅ Lisez jusqu'au bout car il existe une solution efficace...

L'exemple : ce qui est affiché n'est pas ce qui est utilisé

Je vous montre ça avec une question que j'ai posée aux IA :

Réponse faite par ChatGPT sans recherche web (une partie de la réponse est tronquée dans l'image)

L'IA répond en proposant plusieurs modèles de chaussures en mentionnant des marques. Dans cet exemple, ChatGPT n'a pas fait de recherche web (je n'avais pas demandé d'en faire, et j'ai utilisé une version gratuite). Résultat : aucun lien dans la réponse, mais surtout aucune source n'est indiquée. On peut se dire que ChatGPT n'a utilisé que sa base de connaissance figées, et qu'en conséquence il est incapable de lister ses sources.

J'ai donc relancé en forçant la recherche web et ça change tout :

Réponse faite par ChatGPT avec recherche web. La partie droite s'affiche quand on clique sur Sources en bas de la réponse

Et c'est là que tout se joue. Posons le vocabulaire proprement, parce que la confusion vient de là :

  • Une marque mentionnée : un nom de marque qui apparaît dans la réponse (Asics, Nike…). C'est ce que vous voulez obtenir, mais ce n'est pas une source.
  • Un site cité : un site nommé dans le corps de la réponse, avec ou sans lien cliquable. Le fait qu'il soit cliquable ne change rien à son statut.
  • Une source : une page que l'IA a réellement consultée et exploitée pour construire sa réponse.

Le point crucial : ces trois ensembles ne se recouvrent pas. Un site peut être cité dans la réponse sans avoir servi de source. Et surtout, des sources peuvent avoir été utilisées sans jamais apparaître dans la réponse. Ce que vous voyez à l'écran est la partie émergée, et elle est trompeuse.

A propos de vocabulaire : Lexique IA, LLM, GEO

Pourquoi l'écart existe : la mécanique du fan-out

D'où viennent ces sources invisibles ? De la façon dont les moteurs IA travaillent. Avant de répondre, le moteur décompose votre question en un éventail de sous-requêtes, les fameuses recherches fan-out.

Pour notre exemple sur les chaussures de tennis, l'IA va lancer en coulisses des recherches du type "meilleures chaussures tennis surface dure", "chaussures tennis indoor amorti", "comparatif chaussures tennis débutant"…

À l'issue de ces recherches, le moteur récupère un ensemble de pages. Ces pages constituent le vrai vivier de sources. Le moteur en exploite une bonne partie pour rédiger sa réponse, mais il n'en cite explicitement qu'une poignée, et il n'affiche un lien que pour certaines. Autrement dit : les sources sont liées aux recherches fan-out, alors que ce que vous voyez affiché ne reflète qu'un tri final destiné à l'utilisateur.

⚠️ Le point à retenir : viser uniquement les sites que vous voyez cités, c'est ignorer l'essentiel du corpus qui a réellement nourri la réponse.

Pire : selon le moteur, vous ne voyez parfois rien du tout

L'affichage des sources dépend énormément du moteur et du modèle utilisé. D'après mon expérience, voici ce qu'on obtient avec les versions web ou applications :

  • Perplexity affiche toujours ses sources et les met fortement en avant. C'est le bon élève de la transparence.
  • ChatGPT affiche parfois un bloc « Sources » en bas du message, en général quand une recherche web a été déclenchée. Mais ce n'est pas systématique.
  • Gemini ne les affiche jamais.

Conclusion : si vous fondez votre analyse sur ce qui s'affiche à l'écran, votre vision est non seulement partielle, mais elle varie complètement d'un moteur à l'autre. Vous comparez des choses incomparables.

Voici mon infographie récapitulative :

La bonne nouvelle : l'API change tout

Là où l'interface web vous laisse dans le flou, l'API rebat les cartes. En version API, ChatGPT comme Gemini fournissent les sources réellement utilisées pour générer la réponse. Ces données ne sont pas un sous-produit décoratif : ce sont les pages qui ont réellement pesé dans la réponse, y compris celles qui n'apparaissaient nulle part à l'écran.

C'est une mine d'or. Connaître les sources réellement utilisées sur vos thématiques, c'est savoir quels sites influencent vraiment les IA sur votre marché. Et donc savoir où il faut être présent et mentionné pour avoir une chance de remonter dans les réponses. C'est radicalement plus puissant que de courir après les quelques liens affichés.

⚠️ Mon conseil d'expert : ne pilotez jamais votre visibilité IA avec ce que vous voyez dans l'interface. Raisonnez en sources réellement utilisées, récupérées via les API officielles.

Comment exploiter ça concrètement

Un outil qui récupère les bonnes données

Récupérer les sources réellement utilisées à la main, requête par requête, modèle par modèle, sur toutes vos thématiques : c'est inutilisable à l'échelle. C'est exactement pour ça que j'ai intégré cette logique dans RM Console.

Le suivi de Visibilité IA dans RM Console interroge ChatGPT et Gemini via leurs API officielles (pas de scraping, donc des résultats neutres et un cadre respecté). L'outil remonte, pour les questions de votre choix, la liste des sites réellement utilisés comme sources. Pas les sites affichés : les sites utilisés. Vous obtenez ainsi le classement des sources qui comptent vraiment sur votre marché, exportable et exploitable.

Voici un exemple avec Gemini, qui je le rappelle ne fournit pas ses sources dans l'interface web ou appli. Remarque : un site peut apparaitre plusieurs fois si plusieurs de ses pages sont en sources) :

Bien entendu, tout ça est lié aux requêtes fan-out, qui sont récupérées elles aussi par RM Console :

On en fait quoi ensuite de ces données sur les sources ?

Grâce au module Stratégie GEO & SEO de RM Console, vous identifiez :

  • vos pages actuelles déjà listées dans les sources : elles sont précieuses, il faut tout faire pour les maintenir en sources
  • les pages stratégiques (business) de votre site absentes des sources : il faut les améliorer pour qu'elles "plaisent" aux IA et soient retenues dans les sources à l'avenir
  • les sites tiers (hors concurrents) effectivement utilisés comme sources par les IA : votre marque doit y être mentionnée en priorité

Ici par exemple, j'obtiens la liste des pages déjà listées en sources, à consolider :

Et là j'ai la liste des sites les plus influents dans les IA pour le marché que j'ai étudié :

Envie de voir à quoi ressemble le rapport ? Téléchargez un exemple en PDF

Comment améliorer une page pour qu'elle soit utilisée en tant que source ?

Le module d'optimisation de page prend le relais pour vous dire concrètement quoi améliorer, côté SEO comme côté GEO. Par exemple, cet outil inclut une analyse et des recommandations de "citabilité IA". Ce nouveau mot signifie "capacité d'une page être citée par les IA".

Vous pouvez tester gratuitement l'outil sur une page de votre site.

Votre plan d'action immédiat

Les points-clés à retenir :

  • Arrêtez de confondre marques mentionnées, sites cités et sources réellement utilisées : ce sont trois choses différentes
  • Ne vous fiez pas à ce que l'interface affiche, qui varie selon le moteur et reste très partiel
  • Récupérez les vraies sources via les API officielles, puis travaillez votre présence sur celles qui pèsent réellement

Les étapes à suivre :

  1. Démarrez le suivi de visibilité de votre marque dans les IA
  2. Obtenez la feuille de route de votre stratégie GEO & SEO
  3. Optimisez les pages du site les plus prioritaires
  4. Obtenez des mentions dans les bons sites sources

Contactez-moi si vous avez besoin d'aller plus loin...

Résumez ou partagez cette page :

Cet article vous a-t-il plu ?

Note : 5.0 (2 votes)
Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.