Je réponds d'abord à la question principale, avant d'apporter quelques nuances...
Comment interdire le crawl de son site par ChatGPT et OpenAI ?
Depuis août 2023, le robot de ChatGPT est GPTBot
OpenAI (la société qui gère GPT et ChatGPT) a officialisé le nom du robot désormais utilisé pour récolter des données sur lesquelles ses outils d'IA générative se basent. Je liste toutes mes sources en fin d'article.
Le nom d'agent du robot de ChatGPT est GPTBot. La version longue du User Agent de ChatGPT est :
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Pour bloquer le crawl de votre site par ChatGPT, il faut ajouter ces 2 lignes :
User-Agent: GPTBot Disallow: /
Pour autoriser explicitement ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :
User-Agent: GPTBot Disallow:
Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.
Avant l'été 2023
Ce qui suit n'est pas basé sur la documentation officielle d'OpenAI mais sur mes recherches et mon expérience. Il est donc possible que les informations soient en partie fausses, mais attention : ChatGPT a tout de même utilisé les robots décrits ci-dessous dans sa phase initiale.
ChatGPT (et les produits d'OpenAI, et par extension Bing) utilise plusieurs sources de données (datasets) pour entraîner ses algorithmes d'apprentissage. D'après mes recherches, il y en aurait "beaucoup", au moins celles-ci :
- Common Crawl
- WebText2
- Books1 et Books2
- Wikipedia
Le seul dataset sur lequel vous pouvez essayer d'agir est celui de Common Crawl.
Pour cela, si vous souhaitez essayer d'interdire l'accès à votre site à ChatGPT, il faut lui interdire le crawl à l'aide d'une directive dans le fichier robots.txt. Bien entendu, ça n'aura d'impact que pour l'avenir...
Pour Common Crawl, le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est CCBot
.
Pour interdire le crawl à CCBot de tout le site, il faut ajouter ces 2 lignes :
User-Agent: CCBot Disallow: /
Pour autoriser explicitement CCBot à crawler tout le site, il faut ajouter ces 2 lignes :
User-Agent: CCBot Disallow:
Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.
Selon la documentation de Common Crawl :
- le robot de Common Crawl tient également compte du nofollow en ce qui concerne la découverte des URL. Vous pouvez interdire son robot de suivre tous les liens d'une page en ajoutant la balise
<meta name="CCBot" content="nofollow">
- il tient compte aussi des sitemaps (listés dans le robots.txt)
- son adresse IP fait partie de celles utilisées par les services cloud d'Amazon S3
Lisez bien la suite où j'explique que c'est sans doute vain...
Comment interdire le crawl de son site par les plugins de ChatGPT ?
Depuis que ChatGPT gère aussi des plugins, d'autres robots peuvent venir crawler votre site. C'est ce qui arrive si un utilisateur de ChatGPT demande d'exploiter le contenu situé sur votre site.
Dans ce cas, le crawler s'identifie comme ChatGPT-User :
- le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est
ChatGPT-User
- le nom d'agent complet (visible dans les logs) est
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Pour interdire le crawl aux plugins de ChatGPT de tout le site, il faut ajouter ces 2 lignes :
User-Agent: ChatGPT-User Disallow: /
Pour autoriser explicitement les plugins de ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :
User-Agent: ChatGPT-User Disallow:
Est-ce vraiment possible d'empêcher ChatGPT et OpenAI de crawler un site ?
Non, il n'est pas possible de s'assurer que vos contenus ne sont pas exploités par ChatGPT et OpenAI.
D'abord, vos contenus ont peut-être déjà été utilisés. Il n'existe pas de moyen (actuellement) pour faire retirer un contenu d'un dataset.
Ensuite, il est quasi certain que vos contenus sont dans d'autres datasets que Common Crawl.
Enfin, je suppose qu'il y a sans doute d'autres raisons techniques qui font que vous ne pouvez pas garantir que ces IA n'iront pas exploiter vos contenus...
Est-ce une bonne idée de vouloir bloquer OpenAI et son chat ?
Sur le fond, je trouve que c'est normal de vouloir contrôler si un tiers a le droit ou pas d'exploiter (gratuitement) les contenus publiés sur votre site.
Nous avons été habitués à fonctionner avec une sorte d'accord tacite entre les moteurs de recherche et les éditeurs de sites. Ces derniers autorisent par défaut les moteurs de recherche à crawler et indexer leurs contenus, en échange d'une visibilité gratuite offerte dans les pages de résultats. Et donc d'un apport de visiteurs.
Dans le cas des outils à base d'IA, si aucune de leurs sources n'est indiquée dans la réponse fournie à l'utilisateur, alors ce type d'accord tacite n'existe plus.
J'ai l'impression qu'avec les plugins de ChatGPT, c'est bien plus probable que vos contenus soient mentionnés (s'ils ont été crawlés par ces plugins).
Je note aussi que la recherche conversationnelle de Bing (qui exploite ChatGPT) mentionne des sources (avec des liens), mais j'ai l'impression qu'il s'agit surtout de ce que Bingbot a trouvé. Si c'est bien le cas, le blocage de ChatGPT n'est pas concerné ici.
Mais exclure son site de ces outils est-elle vraiment la meilleure chose à faire ? N'est-ce pas ça aussi l'avenir de la recherche ? Et si jamais ces outils en viennent à mentionner leurs sources, ne pas y être devient une faiblesse dans votre stratégie de search marketing...
À ce sujet, ne manquez pas :
- mon dossier complet des meilleurs prompts ChatGPT pour le SEO
- mon article sur les détecteurs de contenus générés par IA
- la discussion comment bloquer Bard/Gemini sur son site (Gemini est l'équivalent de ChatGPT chez Google)
Sources :
- Crawler de ChatGPT : source officielle de OpenAI
- documentation officielle de OpenAI sur les plugins pour ChatGPT
- FAQ de Common Crawl
- article publié sur Search Engine Journal
Bonjour Olivier,
Merci pour cet article. J'ai récemment bloqué certains bots au sein de mon robots.txt et en faisant un pagespeed insight ce matin, l'outil m'indique une erreur "Unknown directive" pour les lignes suivantes :
UserAgent: GPTBot
Disallow: /
UserAgent: CCBot
Disallow: /
UserAgent: ChatGPT-User
Disallow: /
Désolé, j'avais écrit UserAgent dans mon article alors que c'est User-Agent
Merci pour cet article, très clair pour ce qui est des techniques basiques d'exclusion d'agents de robots.
Pour ma part, je crois que l'indiquer dans le fichier robots.txt revient à mettre un panneau sens interdit, tout en laissant la voie ouverte. Donc lorsque j'exclue un groupe d'incides (host, User Agent, P), assimilant ces visites à du piratage, je renvoie une page quasiment vide.
Pour l'instant j'autorise GPTbot à visiter mes pages, conscient que les AI sont "conversationnels" et pas prescripteurs de sites.
D'ailleurs, je ne pense pas que ces AI aient pour l'instant plus de capacité que les moteurs de sortir le meilleur ou les 10 meilleurs sites répondant à une requête.
Mais je crois aussi que la concurrence entre eux, et la demande du public, les incitera dans un avenir plus ou moins proche à placer des liens externes dans leurs réponses.
Article très intéressant merci, trop technique pour moi mais je le passerai â mon webmaster. De l'autre côté de la lorgnette voici un petit article que j'ai écrit sur les avantages et inconvénients de ChatGPT dans les affaires. https://actionclient.com/avantages-et-inconvenients-de-chatgpt-en-affaires/