fichier ai.txt : autoriser ou bloquer les robots d'IA générative

eldk · 31 Janvier 2024

Bonsoir,

J'avais découvert cela il y a quelques jours : https://spawning.ai/ et j'ai eu un peu de difficultés à le retrouver.

ai.txt est un fichier pour indiquer les autorisations d’utilisation de son contenu pour l'entrainement des IA génératives commerciales

Cela semble intéressant, l'idée simple ... à la façon du robots.txt . https://spawning.ai/ai-txt

Je teste, on verra ...

Cordialement,

Eric

eldk · 1 Février 2024

Cela est également intéressant : https://w3c.github.io/tdm-reservation-protocol/spec/

Marie-Aude · 1 Février 2024

Merci

WebRankInfo · 1 Février 2024

mais qui supporte ce truc ?
autant utiliser le robots.txt si vraiment on pense que ça vaut le coup de bloquer les outils qui ont envie de respecter vos consignes

kartyr · 1 Février 2024

Si je ne dis pas de bêtises Microsoft et Google utilisent la balise NOCACHE et NOARCHIVE, ce qui est logique.

C'est hors-sujet, mais ce qui m'embête c'est qu'une fois notre contenu utilisé pour alimenter une AI, on ne peut plus le retirer si on le souhaite.

WebRankInfo · 1 Février 2024

kartyr a dit:
Si je ne dis pas de bêtises Microsoft et Google utilisent la balise NOCACHE et NOARCHIVE, ce qui est logique.

je crois pas que ce soit ça... voir :
comment bloquer ChatGPT sur son site
comment empêcher Bard d'utiliser nos contenus

spout · 2 Février 2024

Ce qui me préoccupe, c'est que les gens utilisent ChatGPT au lieu de poser la question sur StackOverflow, donc il y a moins de topics et moins de sources de données pour l'IA. C'est le serpent qui se mord la queue.

eldk · 2 Février 2024

WebRankInfo a dit:
mais qui supporte ce truc ?
autant utiliser le robots.txt si vraiment on pense que ça vaut le coup de bloquer les outils qui ont envie de respecter vos consignes

Bonjour,

Pour ai.txt, j'ai mis un test en place pour voir qui vient lire. On verra. La principale différence avec le robots.txt, c'est qu'il est dirigé vers des types de ressources et n'interdit pas forcement tout pour une page. Je peux choisir de laisser utiliser le contenu .html mais interdire les images, javascript et autres ... Si cela suit, je pense que c'est simple et pratique. A l'instar du DNT (DoNotTrack) qu'implémente tout les navigateurs, mais, dont plus personne ne parle (interet légitime impossible) ...

En ce qui concerne TDM (https://w3c.github.io/tdm-reservation-protocol/spec/), qui est une autre solution, mais qui a un autre objectif, il s'agit de sortir du "optin" par défaut en l'absence de déclaration du propriétaire/webmaster du site (voir ici https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/?uri=CELEX:32019L0790&from=FR - Titre II - Article 4 - Alinéa 3) - Je ne le savais pas, mais, j'étais d'accord pour que l'on utilise les pages/photos ... de mes sites pour le minage de données et la production de contenu généré ... utilisé commercialement ou pas. Je n'ai pas complétement fermé la porte : si tu veux utiliser, tu demandes l'accord.

J'ai mis cela en place également hier. Mais, j'ai trouvé des requêtes sur le fichier tdmresp.json, à partir de l'été dernier (aucune ne semblant émanée de Google, Bing ...)

Tout cela en plus du robots.txt classique pour ChatGPT et autres ...

Cordialement,

Eric

Un exemple de fichier tdmresp.json de type : "accord nécessaire pour une utilisation TDM" :

JSON:

[

  {

  "location": "/",

  "tdm-reservation": 1

  }

]

Et le fichier policy.json qui va bien : " accord nécessaire et à qui le demander :

JSON:

[
{
    "@context": [
        "http://www.w3.org/ns/odrl.jsonld",
        {"tdm": "http://www.w3.org/ns/tdmrep#"}
    ],

    "@type": "Offer",
    "profile": "http://www.w3.org/ns/tdmrep",
    "uid": "https://mondomaine.tld/.well-know/policy",
    "assigner": {
      "uid": "https://mondomaine.tld/pagedelauteurouwebmaster.html",
      "vcard:fn": "PseudoOuNom",
      "vcard:hasEmail": "mailto:mailduwebmasterouresponsable@mondomain.tld",
      "vcard:hasAddress": {
        "vcard:street-address": "Rue de ...",
        "vcard:postal-code": "00000",
        "vcard:locality": "Ville",
        "vcard:country-name": "Pays"
      },
      "vcard:hasTelephone": "tel:+33xxxxxxxxxxx",
      "vcard:hasURL": "https://mondomain.tld//charte-d-usage-ou-conditions-d-utilisation-du-site.html"
    },
    "permission": [{
      "target": "https://mondomain.tld",
      "action": "tdm:mine",
      "duty": [{
        "action": "obtainConsent"
        }
      ]
    }
  ]
}
]

Ils sont tous les deux à placer dans le dossier .well-know en principe.

WebRankInfo · 2 Février 2024

eldk a dit:
des types de ressources

pas vraiment, car il se base uniquement sur l'extension dans l'URL
ça peut marcher pour un PDF (et encore) mais pour du HTML, ça ne se finit pas forcément par .html
je ne suis pas convaincu du succès du truc...

eldk · 2 Février 2024

WebRankInfo a dit:
pas vraiment, car il se base uniquement sur l'extension dans l'URL

Non, non, sur les en-têtes c'est possible aussi, même si c'est une "extension" qui est indiquée dans le fichier ai.txt au moment du téléchargement d'une ressource.

A priori cela fonctionne également pour les ressources déjà intégrées à des jeu de données : avant de télécharger la ressource, le fichier ai.txt est chargé : si la ressource est autorisée, le téléchargement est possible; sinon, elle est supprimée.

Apparement, certains vendeurs d'images et "constructeurs" de jeu de données pour LLM et autre ... l'utilise déjà.

WebRankInfo · 2 Février 2024

eldk a dit:
Non, non, sur les en-têtes c'est possible aussi

je n'ai pas compris
tu fais comment pour interdire les documents HTML ?

eldk · 2 Février 2024

Tu mets .html dans le fichier ai.txt . Avant de télécharger la ressource, une verification est faite sur les en-têtes de la réponses du serveur pour verifier de quel type de ressource il s'agit.

Le Content-Type de la réponse du serveur :

Code:

Content-Type:
text/html; charset=utf-8

Je teste, on verra ...

Le plus important je pense étant de mettre en place cela : https://w3c.github.io/tdm-reservation-protocol/spec/ puisque ne rien faire signifie "optin/je suis d'accord"

WebRankInfo · 2 Février 2024

mais si les principaux crawlers d'IA ne respectent pas tout ça, ça sert à quoi ?

eldk · 2 Février 2024

WebRankInfo a dit:
mais si les principaux crawlers d'IA ne respectent pas tout ça, ça sert à quoi ?

A vérifier dans un jeu de donnée, même existant, qu'une ressource est bien autorisée. Si cela n'est pas respecté, c'est un autre soucis (idem propriété intellectuelle).

Pour le TDM ... J'ai trouvé cela : https://fr.linkedin.com/posts/aymeric-marolleau-datajournalisme_ia-générative-quels-éditeurs-français-bloquent-activity-7127615702932316160-7_ET?trk=public_profile_like_view . Et pour cela, l'irrespect est illégal.

kartyr · 2 Février 2024

WebRankInfo a dit:
je crois pas que ce soit ça... voir :

En fait, j'avais lu ça : https://blogs.bing.com/webmaster/se...o-control-usage-of-their-content-in-Bing-Chat pour Microsoft / Bing , et je croyais avoir lu la même chose pour Google, mais je dois me tromper.

WebRankInfo · 2 Février 2024

ok merci. c'est très bizarre car par exemple noarchive servait à autre chose

eldk · 8 Février 2024

Bonjour,

Pour la méthode TDM reservation protocol, j'ai fait une erreur dans mon message précedent : le fichier principal à mettre dans le dossier .well-known doit être nommé tdmrep.json et non tdmresp.json.

eldk a dit:
Un exemple de fichier tdmresp.json de type : "accord nécessaire pour une utilisation TDM" :

Un exemple de fichier tdmrep.json de type : "accord nécessaire pour une utilisation TDM" :

Ce fichier est bien demandé/requêté 1 fois par semaine environ par un robot dont le user-agent est "Spawning-AI". Pas d'autres demandes pour le moment. Je verrai, une fois que la réponse ne sera plus en 404 ...

En ce qui concerne le fichier ai.txt :

Un robot avec pour user-agent "Spawning-AI" est venu le lire.

Idem, j'attends de voir si d'autres services viennent le lire.

J'ai repéré un "robot AI" qui vient lire les images. Etant donné qu'il se masque, je doute fort qu'il respecte les 2 méthodes ci-dessus (ni même le fichier robots.txt). On verra ...

Cordialement,

Eric

PS : les "robots AI" exclus par le fichier robots.txt :

Code:

# IA
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: GPTBot
User-agent: Google-Extended
User-agent: anthropic-ai
User-agent: Omgilibot
User-agent: Omgili
User-agent: FacebookBot
User-agent: Bytespider
Disallow: /

eldk · 13 Février 2024

Bonjour,

@kartyr : les balises que tu as indiqué servent également à interdire la génération par AI des légendes (légendes générées par IA) sous les urls des SERP Bing: https://blogs.bing.com/webmaster/november-2023/Announcing-Generative-AI-Captions .

Elles ne sont quelquefois vraiment pas terribles : confusion des genres ...

Cordialement,

Eric

eldk · 29 Avril 2024

Bonjour,

Un guide pour l'utilisation de tdmrep, ia.txt et robots.txt à destination des bots AI : https://res.cloudinary.com/void-sarl/image/upload/ADAGP_Guide_OPT-OUT.pdf

Cordialement,

Eric

eldk · 25 Mai 2024

Bonjour,

Une recherche sur le nom du protocole de déclaration de l'optout pour le data mining et l'utilisation du contenu des sites web pour les modèles génératifs (I An) ne donne toujours aucun résultat pour une communication officielle des instances gouvernementales françaises (voir également sur Google et Bing).

https://search.brave.com/search?q=tdmrep&source=desktop

Pas un trucmachin.gouv.fr .

Quand c'est à défaut de déclaration le optin qui est appliqué (utilisation du contenu autorisé), il serait bien d'informer les webmasters professionnels et amateurs ?

Avez vous connaissance d'une parution officielle ?

Avez vous connaissance de démarches officielles afin de le faire respecter par les major (Google, Meta, Chatmachin et autres) ?

Cordialement,

Eric

eldk · 16 Juin 2024

Bonjour,

Toujours rien d'officiel de la part de nos services compétents pour TDMREP : https://search.brave.com/search?q=tdmrep&source=desktop .

Apple donne un moyen d'interdire l'utilisation de son contenu pour le "data-mining" : https://support.apple.com/en-us/119829 (paragraphe "Data usage") - utilisation de robots.txt.

Cordialement,

Eric

eldk · 16 Juin 2024

Une liste des robots IA maintenues sur Github : https://github.com/ai-robots-txt/ai.robots.txt

eldk · 2 Juillet 2024

Une fiche de la CNIL du 10 juin 2024 où il est fait mention de l'usage de ai.txt : La base légale de l’intérêt légitime : fiche focus sur les mesures à prendre en cas de collecte des données par moissonnage (web scraping) (section : Les garanties supplémentaires).

À noter que la CNIL ne mentionne pas le terme "data-mining" mais bien "web-scraping" - "appeler un chat un chat".

eldk · 2 Juillet 2024

Ici un bon exemple d'implémentation de tdmrep.json avec interdiction d'usage mais possibilité d'autoriser l'utilisation sur demande : https://oer.gitlab.io/tdm/licensing.html

WebRankInfo · 2 Juillet 2024

ça semble bien compliqué tout ça, juste pour espérer faire respecter des droits d'auteur (avec peu de chances de succès selon moi)

eldk · 2 Juillet 2024

ça semble bien compliqué tout ça, juste pour espérer faire respecter des droits d'auteur (avec peu de chances de succès selon moi)

Pour le moment, c'est vrai que presque tous les utilisateurs de contenu (Bing, Google ...) cherchent à noyer le poisson et à "acceptabiliser" leur utilisation .

Pour les droits d'auteur, en mettant certains "dossiers" flagrants entre les mains d'autres requins, cela fonctionne parfois, en laissant une commission sur les indemnités obtenues. Pas encore tenté avec la génération IA.

eldk · 19 Juillet 2024

Bonjour,

1 ) Cloudflare donne la possibilité de bloquer les bots AI/IA , y compris ceux qui se cachent comme visiteurs ordinaires.

Je n'ai pas testé. Certains d'entre vous utilisent t-il cet outil ?

https://blog.cloudflare.com/ai-bots

https://blog.cloudflare.com/declari...ts-scrapers-and-crawlers-with-a-single-click/

2) Concernant les images le blog pixsy.com donne une méthode bloquant leur utilisation à l'aide des microdonnées embarquées : https://www.pixsy.com/image-protection/block-ai-from-using-individual-images .

3) et ici, 2 outils - légaux - Nightshade et Glaze, pour "empoisonner" les images : dessine moi un chien ?meuh !!! : https://nightshade.cs.uchicago.edu/whatis.html

Cordialement,

Eric