Je réponds d'abord à la question principale, avant d'apporter quelques nuances...
Comment interdire le crawl de son site par ChatGPT et OpenAI ?
ChatGPT (et les produits d'OpenAI, et par extension Bing) utilise plusieurs sources de données (datasets) pour entraîner ses algorithmes d'apprentissage. D'après mes recherches, il y en aurait "beaucoup", au moins celles-ci :
- Common Crawl
- WebText2
- Books1 et Books2
- Wikipedia
Le seul dataset sur lequel vous pouvez essayer d'agir est celui de Common Crawl.
Pour cela, si vous souhaitez essayer d'interdire l'accès à votre site à ChatGPT, il faut lui interdire le crawl à l'aide d'une directive dans le fichier robots.txt. Bien entendu, ça n'aura d'impact que pour l'avenir...
Pour Common Crawl, le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est CCBot
.
Pour interdire le crawl à ChatGPT de tout le site, il faut ajouter ces 2 lignes :
UserAgent: CCBot Disallow: /
Pour autoriser explicitement ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :
UserAgent: CCBot Disallow:
Bien entendu, c'est à adapter à votre situation. Lisez mon guide du fichier robots.txt pour savoir comment interdire le crawl d'un répertoire, ou d'un sous-domaine, ou d'autres cas plus spécifiques.
Selon la documentation de Common Crawl :
- le robot de Common Crawl tient également compte du nofollow en ce qui concerne la découverte des URL. Vous pouvez interdire son robot de suivre tous les liens d'une page en ajoutant la balise
<meta name="CCBot" content="nofollow">
- il tient compte aussi des sitemaps (listés dans le robots.txt)
- son adresse IP fait partie de celles utilisées par les services cloud d'Amazon S3
Lisez bien la suite où j'explique que c'est sans doute vain...
Comment interdire le crawl de son site par les plugins de ChatGPT ?
Depuis que ChatGPT gère aussi des plugins, d'autres robots peuvent venir crawler votre site. C'est ce qui arrive si un utilisateur de ChatGPT demande d'exploiter le contenu situé sur votre site.
Dans ce cas, le crawler s'identifie comme ChatGPT-User :
- le nom d'agent (User Agent) à utiliser dans le fichier robots.txt est
ChatGPT-User
- le nom d'agent complet (visible dans les logs) est
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Pour interdire le crawl aux plugins de ChatGPT de tout le site, il faut ajouter ces 2 lignes :
UserAgent: ChatGPT-User Disallow: /
Pour autoriser explicitement les plugins de ChatGPT à crawler tout le site, il faut ajouter ces 2 lignes :
UserAgent: ChatGPT-User Disallow:
Est-ce vraiment possible d'empêcher ChatGPT et OpenAI de crawler un site ?
Non, il n'est pas possible de s'assurer que vos contenus ne sont pas exploités par ChatGPT et OpenAI.
D'abord, vos contenus ont peut-être déjà été utilisés. Il n'existe pas de moyen (actuellement) pour faire retirer un contenu d'un dataset.
Ensuite, il est quasi certain que vos contenus sont dans d'autres datasets que Common Crawl.
Enfin, je suppose qu'il y a sans doute d'autres raisons techniques qui font que vous ne pouvez pas garantir que ces IA n'iront pas exploiter vos contenus...
Est-ce une bonne idée de vouloir bloquer OpenAI et son chat ?
Sur le fond, je trouve que c'est normal de vouloir contrôler si un tiers a le droit ou pas d'exploiter (gratuitement) les contenus publiés sur votre site.
Nous avons été habitués à fonctionner avec une sorte d'accord tacite entre les moteurs de recherche et les éditeurs de sites. Ces derniers autorisent par défaut les moteurs de recherche à crawler et indexer leurs contenus, en échange d'une visibilité gratuite offerte dans les pages de résultats. Et donc d'un apport de visiteurs.
Dans le cas des outils à base d'IA, si aucune de leurs sources n'est indiquée dans la réponse fournie à l'utilisateur, alors ce type d'accord tacite n'existe plus.
J'ai l'impression qu'avec les plugins de ChatGPT, c'est bien plus probable que vos contenus soient mentionnés (s'ils ont été crawlés par ces plugins).
Je note aussi que la recherche conversationnelle de Bing (qui exploite ChatGPT) mentionne des sources (avec des liens), mais j'ai l'impression qu'il s'agit surtout de ce que Bingbot a trouvé. Si c'est bien le cas, le blocage de ChatGPT n'est pas concerné ici.
Mais exclure son site de ces outils est-elle vraiment la meilleure chose à faire ? N'est-ce pas ça aussi l'avenir de la recherche ? Et si jamais ces outils en viennent à mentionner leurs sources, ne pas y être devient une faiblesse dans votre stratégie de search marketing...
À ce sujet, ne manquez pas mon dossier complet des meilleurs prompts ChatGPT pour le SEO et mon article sur les détecteurs de contenus générés par IA.
Sources :
- FAQ de Common Crawl
- documentation officielle de OpenAI
- article publié sur Search Engine Journal
Laisser un commentaire