Bloquer le crawl de ChatGPT ou OpenAI
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Bloquer ChatGPT et OpenAI sur son site

OpenAi et ChatGPT peuvent utiliser les contenus de votre site pour "apprendre" (et fournir des réponses). Si vous souhaitez (essayer de) les bloquer, lisez cet article.

Je réponds d'abord à la question principale, avant d'apporter quelques nuances...

Comment interdire le crawl de son site par ChatGPT et OpenAI ?

Depuis août 2023, le robot de ChatGPT est GPTBot

OpenAI (la société qui gère GPT et ChatGPT) a officialisé le nom du robot désormais utilisé pour récolter des données sur lesquelles ses outils d'IA générative se basent. Je liste toutes mes sources en fin d'article.

Le nom d'agent du robot de ChatGPT est GPTBot. La version longue du User Agent de ChatGPT est :

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Pour bloquer le crawl de votre site par ChatGPT, il faut ajouter ces 2 lignes :

User-Agent: GPTBot
Disallow: /

Pour autoriser explicitement ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: GPTBot
Disallow: 

Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.

Avant l'été 2023

Ce qui suit n'est pas basé sur la documentation officielle d'OpenAI mais sur mes recherches et mon expérience. Il est donc possible que les informations soient en partie fausses, mais attention : ChatGPT a tout de même utilisé les robots décrits ci-dessous dans sa phase initiale.

ChatGPT (et les produits d'OpenAI, et par extension Bing) utilise plusieurs sources de données (datasets) pour entraîner ses algorithmes d'apprentissage. D'après mes recherches, il y en aurait "beaucoup", au moins celles-ci :

  • Common Crawl
  • WebText2
  • Books1 et Books2
  • Wikipedia

Le seul dataset sur lequel vous pouvez essayer d'agir est celui de Common Crawl.

Pour cela, si vous souhaitez essayer d'interdire l'accès à votre site à ChatGPT, il faut lui interdire le crawl à l'aide d'une directive dans le fichier robots.txt. Bien entendu, ça n'aura d'impact que pour l'avenir...

Pour Common Crawl, le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est CCBot.

Pour interdire le crawl à CCBot de tout le site, il faut ajouter ces 2 lignes :

User-Agent: CCBot
Disallow: /

Pour autoriser explicitement CCBot à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: CCBot
Disallow: 

Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.

Selon la documentation de Common Crawl :

  • le robot de Common Crawl tient également compte du nofollow en ce qui concerne la découverte des URL. Vous pouvez interdire son robot de suivre tous les liens d'une page en ajoutant la balise <meta name="CCBot" content="nofollow">
  • il tient compte aussi des sitemaps (listés dans le robots.txt)
  • son adresse IP fait partie de celles utilisées par les services cloud d'Amazon S3

Lisez bien la suite où j'explique que c'est sans doute vain...

Comment interdire le crawl de son site par les plugins de ChatGPT ?

Depuis que ChatGPT gère aussi des plugins, d'autres robots peuvent venir crawler votre site. C'est ce qui arrive si un utilisateur de ChatGPT demande d'exploiter le contenu situé sur votre site.

Dans ce cas, le crawler s'identifie comme ChatGPT-User  :

  • le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est ChatGPT-User
  • le nom d'agent complet (visible dans les logs) est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Pour interdire le crawl aux plugins de ChatGPT de tout le site, il faut ajouter ces 2 lignes :

User-Agent: ChatGPT-User
Disallow: /

Pour autoriser explicitement les plugins de ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: ChatGPT-User
Disallow: 

Est-ce vraiment possible d'empêcher ChatGPT et OpenAI de crawler un site ?

Non, il n'est pas possible de s'assurer que vos contenus ne sont pas exploités par ChatGPT et OpenAI.

D'abord, vos contenus ont peut-être déjà été utilisés. Il n'existe pas de moyen (actuellement) pour faire retirer un contenu d'un dataset.

Ensuite, il est quasi certain que vos contenus sont dans d'autres datasets que Common Crawl.

Enfin, je suppose qu'il y a sans doute d'autres raisons techniques qui font que vous ne pouvez pas garantir que ces IA n'iront pas exploiter vos contenus...

Est-ce une bonne idée de vouloir bloquer OpenAI et son chat ?

Sur le fond, je trouve que c'est normal de vouloir contrôler si un tiers a le droit ou pas d'exploiter (gratuitement) les contenus publiés sur votre site.

Nous avons été habitués à fonctionner avec une sorte d'accord tacite entre les moteurs de recherche et les éditeurs de sites. Ces derniers autorisent par défaut les moteurs de recherche à crawler et indexer leurs contenus, en échange d'une visibilité gratuite offerte dans les pages de résultats. Et donc d'un apport de visiteurs.

Dans le cas des outils à base d'IA, si aucune de leurs sources n'est indiquée dans la réponse fournie à l'utilisateur, alors ce type d'accord tacite n'existe plus.

J'ai l'impression qu'avec les plugins de ChatGPT, c'est bien plus probable que vos contenus soient mentionnés (s'ils ont été crawlés par ces plugins).

Je note aussi que la recherche conversationnelle de Bing (qui exploite ChatGPT) mentionne des sources (avec des liens), mais j'ai l'impression qu'il s'agit surtout de ce que Bingbot a trouvé. Si c'est bien le cas, le blocage de ChatGPT n'est pas concerné ici.

Mais exclure son site de ces outils est-elle vraiment la meilleure chose à faire ? N'est-ce pas ça aussi l'avenir de la recherche ? Et si jamais ces outils en viennent à mentionner leurs sources, ne pas y être devient une faiblesse dans votre stratégie de search marketing...

À ce sujet, ne manquez pas :

Sources :

Cet article vous a-t-il plu ?

Note : 3.6 (5 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

4 commentaires

Flo

Bonjour Olivier,

Merci pour cet article. J'ai récemment bloqué certains bots au sein de mon robots.txt et en faisant un pagespeed insight ce matin, l'outil m'indique une erreur "Unknown directive" pour les lignes suivantes :

UserAgent: GPTBot
Disallow: /

UserAgent: CCBot
Disallow: /

UserAgent: ChatGPT-User
Disallow: /

Répondre
Olivier Duffez

Désolé, j'avais écrit UserAgent dans mon article alors que c'est User-Agent

Répondre
Mango

Merci pour cet article, très clair pour ce qui est des techniques basiques d'exclusion d'agents de robots.

Pour ma part, je crois que l'indiquer dans le fichier robots.txt revient à mettre un panneau sens interdit, tout en laissant la voie ouverte. Donc lorsque j'exclue un groupe d'incides (host, User Agent, P), assimilant ces visites à du piratage, je renvoie une page quasiment vide.

Pour l'instant j'autorise GPTbot à visiter mes pages, conscient que les AI sont "conversationnels" et pas prescripteurs de sites.

D'ailleurs, je ne pense pas que ces AI aient pour l'instant plus de capacité que les moteurs de sortir le meilleur ou les 10 meilleurs sites répondant à une requête.

Mais je crois aussi que la concurrence entre eux, et la demande du public, les incitera dans un avenir plus ou moins proche à placer des liens externes dans leurs réponses.

Répondre