Expérimentation des retours de visites (CTR) depuis les chats ChatGPT : beaucoup de trafic bot, très peu de visites

  • Auteur de la discussion Auteur de la discussion eldk
  • Date de début Date de début
WRInaute occasionnel
Bonsoir,

Je n’ai pas trouvé de CTR moyen officiel publié pour ChatGPT-User seul.

Le comparable le plus proche est plutôt le ratio crawl-to-refer utilisé par Cloudflare : nombre de pages HTML consultées par les agents IA / nombre de visites réellement renvoyées vers les sites.

Référence Cloudflare :
Cloudflare — Understanding AI’s impact on content providers

Pour OpenAI / ChatGPT, les ordres de grandeur publics disponibles sont très faibles :

  • OpenAI / ChatGPT, données Cloudflare rapportées par Business Insider en avril 2026 : environ 993 requêtes pour 1 visite, soit un CTR équivalent d’environ 0,10 %.
  • OpenAI / ChatGPT, données Cloudflare rapportées par Reuters en juillet 2025 : environ 1 500 requêtes pour 1 visite, soit un CTR équivalent d’environ 0,067 %.

Références :

Donc, en pratique, pour un site de contenu ou d’information, un CTR serveur → visite autour de 0,07 % à 0,20 % semble malheureusement cohérent avec le fonctionnement actuel des assistants IA.

Sur mes propres données filtrées ChatGPT-User, j’observe par exemple pour une periode de 30 jours environ:

  • Requêtes ChatGPT-User : 27 751
  • Visites acquises : 61 (2 visiteurs/jour en moyenne) - utm_source=chatgpt.com (paramètre ajouté par openai sur ses liens) et/ou referrer =
    Code:
    https://chatgpt.com/
  • Ratio : environ 455 requêtes pour 1 visite
  • CTR : environ 0,22 % (environ 1/2 fois le CTR de Google Image)

À noter : OpenAI présente ChatGPT-User comme un user-agent utilisé pour certaines actions déclenchées par l’utilisateur dans ChatGPT ou dans des GPTs personnalisés, et non comme un crawler automatique - il ne respecte donc pas "totalement" les consignes du fichier robots.txt.

Référence OpenAI :
OpenAI — Overview of OpenAI crawlers

Conclusion

Même lorsqu’il s’agit de ChatGPT-User, donc d’un accès supposément lié à une interaction utilisateur, la valeur de retour reste marginale : beaucoup de lectures serveur pour très peu de visites.

D'autres ont ils des chiffres, des liens ?

On parle d'acquisition de notoriété ...

La meilleure stratégie pour un site de contenu n'est elle pas finalement de bloquer les Bots IA, en dehors de ceux de type recherche web (OAISearchBot ...) ?

Cordialement,

Eric

PS : j'ai utilisé ChatGPT pour la rédaction de ce post.
 
Dernière édition:
Olivier Duffez (admin)
Membre du personnel
La meilleure stratégie pour un site de contenu n'est elle pas finalement de bloquer les Bots IA, en dehors de ceux de type recherche web (OAISearchBot ...) ?
Un site de contenu n'a en effet rien à attendre des moteurs IA (ChatGPT et autres), le trafic sera totalement marginal. Bloquer les robots ChatGPT pourquoi pas, notamment si le crawl pose des pb.
Mais au-delà, s'il s'agit d'un site qui vit de la publicité, la réelle question est de trouver un autre modèle économique. Compliqué !
 
WRInaute occasionnel
Je suis assez d'accord avec vous car finalement le profil de l'utilisateur de chatgpt est d'aller vite à la connaissance ou de produire, donc peu propice à une visite exploratoire en dehors du chatbot....même si ça arrive comme on l'a tous remarqué...comme chatgpt est sur l'index de bing, bloquer chatgpt user ou gptbot ne me semble pas pénalisant...de toute manière en cas de doute c'est facile de désactiver le cdn...;)...
 
WRInaute occasionnel
Bonsoir,

Mais au-delà, s'il s'agit d'un site qui vit de la publicité, la réelle question est de trouver un autre modèle économique. Compliqué !

Tout à fait.

Je poursuis mes recherches ...

Un mouvement de blocage au niveau des webmasters/editeurs de contenu "petits" et "indépendants" avec "marque" : "ce contenu/site n'est pas disponible dans les résultats générés par les générateurs de contenu AI, pour trouver une réponse validée par un humain : venez ici" . Un badge ? ... + ajout aux favoris ...

Il y a également cela https://search.brave.com/search?q=HTML+402+response&summary=1 - qui pourrait être utilisé pour un blocage même si aucun système de paiement n'est en place.

Est ce qu'il est possible que plus de monde complète : https://www.webrankinfo.com/forum/t...terdire-le-crawl-de-chatgpt-et-openai.200669/ , signale un changement dans sa réponse ...

Pour ma part, j'avais dit non, je teste l'ouverture, la fermeture ... depuis l'été dernier ...

Cordialement,

Eric
 
Dernière édition:
Nouveau WRInaute
Bonjour Eric,

Sujet passionnant. Je pense que la clé est dans la distinction entre deux user-agents ChatGPT au ROI très différent :

  • ChatGPT-User : le "lecteur" — il crawle pour alimenter les réponses mais renvoie rarement l'internaute vers vous (vos 0,22 %, les données Cloudflare à 0,10 %). C'est lui qui crée le déséquilibre crawl/visite que vous constatez.
  • OAISearchBot : le "chercheur" — utilisé quand l'utilisateur active la recherche web dans ChatGPT. Lui génère des citations avec liens cliquables, donc des visites réelles.

Une stratégie qui en découle :
→ Limiter ChatGPT-User via robots.txt (ROI quasi nul, sauf si vous vendez vos données à OpenAI),
→ Laisser passer OAISearchBot et les crawlers "search" des autres IA (Perplexity, Bing/ChatGPT),
→ Soigner le contenu pour la citation : Schema.org FAQ/Article, sources datées, E-E-A-T explicite. Quand un bot "search" vous cite, il inclut votre URL — c'est du trafic réel.

Ce n'est pas magique — le CTR en "search mode" reste marginal — mais c'est la différence entre consommation sans attribution et citation avec lien.

Votre réflexion sur un badge "contenu humain" me semble également prometteuse, surtout si des navigateurs comme Brave commencent à le valoriser.

Cordialement,
Etienne
 
WRInaute occasionnel
Bonjour,

Pour compléter le sujet, un article de blog sur le "Pay Per Crawl" en expérimentation chez modpagespeed.com - le retour des modules apache/nginx pour l'optimisation des ressources de site(s) web côté serveur - origine : https://github.com/apache/incubator-pagespeed-mod :

https://modpagespeed.com/blog/pay-per-crawl-at-the-origin/ .

Cela bouge également du côté de l'utilisation éventuelle des données d'un site web par les "agents" : https://modpagespeed.com/blog/agentic-web-at-the-origin/

Cordialement,

Eric
 
Nouveau WRInaute
Bonsoir,

Sur le CTR je n'ai rien de mieux que les chiffres Cloudflare déjà cités, mais la distinction d'@etienneaubry entre le bot "lecteur" et le bot "search" me paraît être le vrai nœud du sujet.

Un point qui complique un peu la stratégie "soigner le contenu pour la citation" : depuis quelques temps je collecte les citations de Perplexity, ChatGPT search et Gemini grounding sur les mêmes requêtes (contenu informationnel FR), et le recoupement entre les trois est étonnamment faible — de l'ordre de 2% de citations communes aux trois moteurs. Autrement dit, être bien cité par l'un ne dit presque rien sur les deux autres. Ça m'a surpris, je m'attendais à un socle commun bien plus large.


Du coup je me demande : quand vous parlez d'optimiser pour la citation (Schema, E-E-A-T, sources datées), vous visez un moteur en particulier, ou vous constatez un effet transversal ? Parce que de mon côté je n'arrive pas encore à isoler ce qui marcherait sur les trois à la fois.


Cordialement

Olivier
 
Nouveau WRInaute
Bonjour Olivier,

Votre chiffre de ~2% de recoupement est passionnant, et finalement pas si surprenant quand on regarde ce qui se passe sous le capot de chaque moteur : leur index source, leur logique de retrieval et leur critère de sélection du passage cité sont chacun différents (Perplexity s'appuie sur son propre crawl temps réel et semble valoriser la fraîcheur et la diversité de domaines ; ChatGPT search hérite largement de l'index Bing ; Gemini grounding s'appuie sur l'index Google et paraît favoriser les entités déjà bien structurées côté Knowledge Graph). Rien ne garantit qu'ils convergent sur la même source pour une même requête, même quand le contenu est bon.

Pour répondre directement à votre question : je pense qu'il y a les deux effets, mais pas au même niveau. Schema.org, E-E-A-T explicite et sources datées, c'est plutôt la condition nécessaire et transversale : un contenu mal balisé, sans auteur identifiable ni date, n'a quasiment aucune chance d'être cité par aucun des trois. Mais ce n'est pas suffisant pour être cité par un moteur en particulier : au-delà de ce socle commun, chacun a ses propres critères de sélection peu documentés (pondération de la fraîcheur, diversité de sources dans une même réponse, format préféré...).

Avec un recoupement aussi faible, je me demande si viser "être cité par les trois sur la même requête" n'est pas un objectif un peu illusoire à l'échelle d'une seule page. Une stratégie sans doute plus réaliste : maximiser la surface de citation potentielle (plusieurs pages, plusieurs angles sur un même sujet) plutôt que d'optimiser une page unique pour cocher les trois cases à la fois.

Votre méthodologie de recoupement m'intéresse beaucoup, vous mesurez ça sur quel volume de requêtes ?

Cordialement,
Etienne
 
Nouveau WRInaute
Bonjour Etienne,

Pour le volume : je suis sur plusieurs milliers de citations collectées sur des requêtes informationnelles FR, avec en parallèle les pages Google positionnées sur les mêmes requêtes comme groupe de comparaison. Rien d'industriel, mais assez pour que les écarts ne soient plus du bruit, le ~2% de recoupement tient sur ce corpus.

Votre grille "condition nécessaire transversale (Schema, E-E-A-T, dates) + critères propres à chaque moteur" me paraît la bonne façon de poser le problème. J'ajouterais une couche qui la complique : une part importante des pages citées par Perplexity n'apparaît pas dans le top 20 Google pour la même requête. Le moteur ne semble donc pas puiser dans le même vivier que Google, la sélection diverge dès l'amont, pas seulement au niveau du passage extrait. Ce qui expliquerait mécaniquement les 2%.

Sur votre conclusion "maximiser la surface plutôt qu'optimiser une page unique" : l'idée me paraît juste face à des moteurs imprévisibles, mais j'y vois une réserve sérieuse. Multiplier les pages sur des angles proches d'un même sujet, c'est aussi le scénario type de la cannibalisation SEO — URLs qui se concurrencent sur les mêmes requêtes Google, dilution du signal, voire pages minces qui fragilisent le domaine si c'est mal maîtrisé. Bien fait, c'est un cocon légitime ; mal fait, on abîme du trafic Google réel pour courir après des citations LLM qui, aux CTR qu'on a vus (0,1- 0,2%), ne renvoient presque personne.

Ce qui pose une vraie tension : optimiser pour être cité par les LLM (multiplier les surfaces) et optimiser pour bien ranker sur Google (consolider une page de référence) ne tirent pas forcément dans le même sens. Et vu la marginalité du trafic IA, je ne suis pas sûr que le jeu en vaille la chandelle sur un site dont le trafic Google est le vrai actif.

Cordialement,
Olivier
 
WRInaute occasionnel
Bonjour à tous,

Pour prolonger vos analyses passionnantes, je me demande si la clé de ce faible recoupement (les 2 % d'Olivier) ne se joue pas en amont, au moment même du Retrieval (la phase de récupération des données par le modèle).

Aujourd'hui, pour ancrer leurs réponses (grounding), les LLM n'analysent pas le web comme le Google des années 2010. Ils s'appuient sur des architectures de type RAG qui croisent des index textuels, des bases vectorielles et des graphes de connaissances externes.

D'où ma question : vos expérimentations portent-elles sur des entités totalement réconciliées (via des JSON-LD en graphe liant site web, réseaux sociaux, fiches Bing Store et Google Business Profile), avec un alignement explicite vers des nœuds de confiance comme Wikidata ou DBpedia sur chaque page ? ce qui équivaut à un reset du site et de la visibilité de chaque page....donc flippant pour un site qui avait un gros traffic et tentant pour les petits nouveaux...
 
Nouveau WRInaute
Bonsoir,

Pour répondre directement : non, mon corpus ne porte pas sur des sites avec un alignement d'entités aussi structuré que ce que vous décrivez, pas de réconciliation explicite Wikidata/DBpedia, pas de graphe JSON-LD croisant les différentes présences web. Ce sont des pages ordinaires, avec un balisage Schema.org standard au mieux.

Et c'est peut-être là le point intéressant : des pages sans cet alignement sont quand même citées, parfois fréquemment. Ce qui suggère que le graphe d'entités n'est pas une condition nécessaire à la citation, ou du moins pas encore, pour les requêtes informationnelles générales.

Votre hypothèse RAG/graphes de connaissances me paraît plus pertinente pour des requêtes à forte dimension d'autorité (santé, finance, entités nommées spécifiques) que pour du contenu informationnel large. Mais je n'ai pas de données pour le trancher, ça mériterait de comparer les taux de citation selon le type de requête.

Sur votre remarque finale : "flippant pour les gros, tentant pour les petits nouveaux", c'est exactement la tension que je posais dans mon message précédent, mais vue depuis l'autre côté. Un gros site qui tente d'optimiser pour la citation LLM en multipliant les angles risque la cannibalisation Google. Un petit nouveau qui part de zéro peut construire différemment. Mais les deux restent face au même CTR de 0,1–0,2%.

Cordialement,
Olivier
 
WRInaute occasionnel
Oui je suis totalement d'accord avec vous sur les graph d'entité et la cible de sites web....concernant les patterns à forte impression pour ma part en regardant ce qui se passe en espagne et aux usa je suis assez inquiète car en effet AIO et d'autres IA s'entraînent sur ces patterns réduisant drastiquement le trafic des sites....de même ma technique peut être exploitée en e-commerce pour renforcer l'EEAT, mais il ne faut pas en attendre de garder les triplets sémantiques fondés sur des patterns larges dans la recherche informationnelle....enfin ça se tente mais je ne le sens vraiment pas....et encore moins pour les blogs généralistes.... quant au ctr ma technique permet d'améliorer le référencement global dans tous les moteurs de recherches boostés à l'IA dont google car cela amène un trafic qualifié ce qui augmente drastiquement le dwelltime....bien évidemment on nourrit les cerveaux des IA de Google mais ça permet de rester indexer durablement grâce aux noeuds d'autorité, cela prépare à la recherche agentique...je voudrais bien vous dire que cela est une merveilleuse technique de green seo mais quand je vois les crawls amonts de ce beau petit monde, certes mon site pollue moins qu'un wordpress avec la vieille technique seo et les patterns larges mais vu la présence constante des IA et des moteurs de recherche, les dépenses énergétiques sont transférées dans le edge car même si les vecteurs sont précisés et définis en amont certains moteurs ou IA n'hésitent pas à revenir crawler l'url pour vérifier s'il y a un changement ou une info plus fraîche....
 
Dernière édition:
Nouveau WRInaute
Bonjour,

Pour répondre directement : non, mon corpus ne porte pas sur des sites avec un alignement d'entités aussi structuré que ce que vous décrivez, pas de réconciliation explicite Wikidata/DBpedia, pas de graphe JSON-LD croisant les différentes présences web. Ce sont des pages ordinaires, avec un balisage Schema.org standard au mieux.

Et c'est peut-être là le point intéressant : des pages sans cet alignement sont quand même citées, parfois fréquemment. Ce qui suggère que le graphe d'entités n'est pas une condition nécessaire à la citation, ou du moins pas encore, pour les requêtes informationnelles générales.

Votre hypothèse RAG/graphes de connaissances me paraît plus pertinente pour des requêtes à forte dimension d'autorité (santé, finance, entités nommées spécifiques) que pour du contenu informationnel large. Mais je n'ai pas de données pour le trancher, ça mériterait de comparer les taux de citation selon le type de requête.

Sur votre remarque finale : "flippant pour les gros, tentant pour les petits nouveaux", c'est exactement la tension que je posais dans mon message précédent, mais vue depuis l'autre côté. Un gros site qui tente d'optimiser pour la citation LLM en multipliant les angles risque la cannibalisation Google. Un petit nouveau qui part de zéro peut construire différemment. Mais les deux restent face au même CTR de 0,1–0,2%.

Olivier
 
WRInaute occasionnel
Je vous rejoins sur le ciblage des sites avec systématisation du graph d’entités qui est d’ailleurs un tres long travail si on veut que ça soit bien fait. Mais ce travail de longue haleine permet un trafic qualifié avec une augmentation du dwell Time sans risque de cannibalisation puisque sur chaque page on détermine les vecteurs avec précision… mais Google peut aussi faire le choix d’ignorer les données structurées
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut