Comment bloquer le crawl de son site par ChatGPT et OpenAI

Résumez ou partagez cette page :

En résumé :

ChatGPT utilise plusieurs robots (crawlers) que vous pouvez autoriser ou interdire
GPTBot est utilisé en permanence, pour amasser des données (apprentissage)
ChatGPT-User est utilisé par les GPT personnalisés ou si un prompt demande d'aller crawler
OAI-SearchBot est utilisé par le moteur de recherche de ChatGPT

Je réponds d'abord à la question principale, avant d'apporter quelques nuances...

Comment interdire le crawl de son site par ChatGPT et OpenAI ?

Depuis août 2023, le robot de ChatGPT est GPTBot

OpenAI (la société qui gère GPT et ChatGPT) a officialisé le nom du robot désormais utilisé pour récolter des données sur lesquelles ses outils d'IA générative se basent (donnée d'entraînement). Je liste toutes mes sources en fin d'article.

Le nom d'agent du robot de ChatGPT est GPTBot. La version longue du User Agent de ChatGPT est :

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Pour bloquer le crawl de votre site par ChatGPT, il faut ajouter ces 2 lignes :

User-Agent: GPTBot
Disallow: /

Pour autoriser explicitement ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: GPTBot
Disallow:

Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.

Comment interdire le crawl par les GPT de ChatGPT ?

ChatGPT peut également venir crawler votre site en direct (pas pendant sa phase d'apprentissage, qui est permanente). C'est le cas par exemple des GPT (ce sont des versions spéciales de ChatGPT créées par des utilisateurs payants). C'était le cas également des plugins quand ils existaient en 2023 et 2024.

C'est aussi ce qui arrive si un utilisateur de ChatGPT demande spécifiquement dans son prompt d'exploiter le contenu situé sur votre site.

Dans ce cas, le crawler s'identifie comme ChatGPT-User :

le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est ChatGPT-User
le nom d'agent complet (visible dans les logs) est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Pour interdire le crawl aux GPT de ChatGPT, il faut ajouter ces 2 lignes à votre fichier robots.txt :

User-Agent: ChatGPT-User
Disallow: /

Pour autoriser explicitement les GPT à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: ChatGPT-User
Disallow:

Comment interdire le crawl de ChatGPT Search ?

Depuis novembre 2024, ChatGPT existe aussi sous la forme d'un moteur de recherche. Temporairement appelé SearchGPT, il s'appelle ChatGPT Search.

Ce moteur se base en partie sur Bing (le moteur de recherche de Microsoft) et également sur son propre crawl, réalisé avec OAI-SearchBot :

le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est OAI-SearchBot
le nom d'agent complet (visible dans les logs) est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

Pour interdire le crawl au moteur ChatGPT Search, il faut ajouter ces 2 lignes à votre fichier robots.txt :

User-Agent: OAI-SearchBot
Disallow: /

Pour autoriser explicitement ChatGPT Search à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: OAI-SearchBot
Disallow:

Si vous bloquez tout, il ne faudra pas vous attendre à avoir du trafic issu de ChatGPT...

Résumé : les crawlers de ChatGPT

Voici les 3 crawlers utilisés par ChatGPT :

Crawler (user-agent)	Description
GPTBot	OpenAI utilise GPTBot pour enrichir sa base de connaissances et entraîner ChatGPT pour l'IA générative. Son nom d'agent complet est : `Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot`
OAI-SearchBot	OAI-SearchBot est utilisé par le moteur de recherche de ChatGPT ainsi que pour des fonctions de recherche d'OpenAI. Il n'est pas utilisé pour explorer le contenu afin d'entraîner les modèles génératifs d'IA. Si vous le bloquez, votre site ne sera pas listé dans les résultats de ChatGPT Search. Son nom d'agent complet est : `Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot`
ChatGPT-User	ChatGPT-User est destiné aux actions des utilisateurs dans ChatGPT et dans les GPT personnalisés. Lorsque les utilisateurs posent une question à ChatGPT ou à un GPT, celui-ci peut visiter une page pour aider à répondre et inclure un lien vers la source dans sa réponse. Les utilisateurs de ChatGPT peuvent également interagir avec des applications externes par le biais d'actions GPT. ChatGPT-User n'est pas utilisé pour explorer le web de manière automatique, ni pour explorer du contenu pour l'entraînement à l'IA générative. Son nom d'agent complet est : `Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot`

Description des crawlers de ChatGPT

Crawl avant l'été 2023

Ce qui suit n'est pas basé sur la documentation officielle d'OpenAI mais sur mes recherches et mon expérience. Il est donc possible que les informations soient en partie fausses, mais attention : ChatGPT a tout de même utilisé les robots décrits ci-dessous dans sa phase initiale.

ChatGPT (et les produits d'OpenAI, et par extension Bing) utilise plusieurs sources de données (datasets) pour entraîner ses algorithmes d'apprentissage. D'après mes recherches, il y en aurait "beaucoup", au moins celles-ci :

Common Crawl
WebText2
Books1 et Books2
Wikipedia

Le seul dataset sur lequel vous pouvez essayer d'agir est celui de Common Crawl.

Pour cela, si vous souhaitez essayer d'interdire l'accès à votre site à ChatGPT, il faut lui interdire le crawl à l'aide d'une directive dans le fichier robots.txt. Bien entendu, ça n'aura d'impact que pour l'avenir...

Pour Common Crawl, le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est CCBot.

Pour interdire le crawl à CCBot de tout le site, il faut ajouter ces 2 lignes :

User-Agent: CCBot
Disallow: /

Pour autoriser explicitement CCBot à crawler tout le site, il faut ajouter ces 2 lignes :

User-Agent: CCBot
Disallow:

Selon la documentation de Common Crawl :

le robot de Common Crawl tient également compte du nofollow en ce qui concerne la découverte des URL. Vous pouvez interdire son robot de suivre tous les liens d'une page en ajoutant la balise <meta name="CCBot" content="nofollow">
il tient compte aussi des sitemaps (listés dans le robots.txt)
son adresse IP fait partie de celles utilisées par les services cloud d'Amazon S3

Lisez bien la suite où j'explique que c'est sans doute vain...

Est-ce vraiment possible d'empêcher ChatGPT et OpenAI de crawler un site ?

Non, il n'est pas possible de s'assurer que vos contenus ne sont pas exploités par ChatGPT et OpenAI.

D'abord, vos contenus ont peut-être déjà été utilisés. Il n'existe pas de moyen (actuellement) pour faire retirer un contenu d'un dataset.

Ensuite, il est quasi certain que vos contenus sont dans d'autres datasets que Common Crawl.

Enfin, je suppose qu'il y a sans doute d'autres raisons techniques qui font que vous ne pouvez pas garantir que ces IA n'iront pas exploiter vos contenus...

Est-ce une bonne idée de vouloir bloquer OpenAI et son chat ?

Sur le fond, je trouve que c'est normal de vouloir contrôler si un tiers a le droit ou pas d'exploiter (gratuitement) les contenus publiés sur votre site.

Nous avons été habitués à fonctionner avec une sorte d'accord tacite entre les moteurs de recherche et les éditeurs de sites. Ces derniers autorisent par défaut les moteurs de recherche à crawler et indexer leurs contenus, en échange d'une visibilité gratuite offerte dans les pages de résultats. Et donc d'un apport de visiteurs.

Dans le cas des outils à base d'IA, si aucune de leurs sources n'est indiquée dans la réponse fournie à l'utilisateur, alors ce type d'accord tacite n'existe plus.

J'ai l'impression qu'avec les plugins de ChatGPT, c'est bien plus probable que vos contenus soient mentionnés (s'ils ont été crawlés par ces plugins).

Je note aussi que la recherche conversationnelle de Bing (qui exploite ChatGPT) mentionne des sources (avec des liens), mais j'ai l'impression qu'il s'agit surtout de ce que Bingbot a trouvé. Si c'est bien le cas, le blocage de ChatGPT n'est pas concerné ici.

Mais exclure son site de ces outils est-elle vraiment la meilleure chose à faire ? N'est-ce pas ça aussi l'avenir de la recherche ? Et si jamais ces outils en viennent à mentionner leurs sources, ne pas y être devient une faiblesse dans votre stratégie de search marketing...

À ce sujet, ne manquez pas :

mon dossier complet des meilleurs prompts ChatGPT pour le SEO
mon article sur les détecteurs de contenus générés par IA
la discussion comment bloquer Gemini sur son site (Gemini est l'équivalent de ChatGPT chez Google)

Sources :

Crawler de ChatGPT : source officielle de OpenAI
documentation officielle de OpenAI sur les plugins pour ChatGPT
FAQ de Common Crawl
article publié sur Search Engine Journal

Résumez ou partagez cette page :

Cet article vous a-t-il plu ?

Note : 3.6 (5 votes)

Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

4 commentaires

Flo 03 octobre 2023

Bonjour Olivier,

Merci pour cet article. J'ai récemment bloqué certains bots au sein de mon robots.txt et en faisant un pagespeed insight ce matin, l'outil m'indique une erreur "Unknown directive" pour les lignes suivantes :

UserAgent: GPTBot
Disallow: /

UserAgent: CCBot
Disallow: /

UserAgent: ChatGPT-User
Disallow: /

Olivier Duffez 03 octobre 2023

Désolé, j'avais écrit UserAgent dans mon article alors que c'est User-Agent

Mango 02 septembre 2023

Merci pour cet article, très clair pour ce qui est des techniques basiques d'exclusion d'agents de robots.

Pour ma part, je crois que l'indiquer dans le fichier robots.txt revient à mettre un panneau sens interdit, tout en laissant la voie ouverte. Donc lorsque j'exclue un groupe d'incides (host, User Agent, P), assimilant ces visites à du piratage, je renvoie une page quasiment vide.

Pour l'instant j'autorise GPTbot à visiter mes pages, conscient que les AI sont "conversationnels" et pas prescripteurs de sites.

D'ailleurs, je ne pense pas que ces AI aient pour l'instant plus de capacité que les moteurs de sortir le meilleur ou les 10 meilleurs sites répondant à une requête.

Mais je crois aussi que la concurrence entre eux, et la demande du public, les incitera dans un avenir plus ou moins proche à placer des liens externes dans leurs réponses.

Jean-Pierre Mercier 09 juin 2023

Article très intéressant merci, trop technique pour moi mais je le passerai â mon webmaster. De l'autre côté de la lorgnette voici un petit article que j'ai écrit sur les avantages et inconvénients de ChatGPT dans les affaires. https://actionclient.com/avantages-et-inconvenients-de-chatgpt-en-affaires/

Les commentaires sont fermés