fichier ai.txt : autoriser ou bloquer les robots d'IA générative

WRInaute discret
Bonsoir,

J'avais découvert cela il y a quelques jours : https://spawning.ai/ et j'ai eu un peu de difficultés à le retrouver.

ai.txt est un fichier pour indiquer les autorisations d’utilisation de son contenu pour l'entrainement des IA génératives commerciales

Cela semble intéressant, l'idée simple ... à la façon du robots.txt . https://spawning.ai/ai-txt

Je teste, on verra ...

Cordialement,

Eric
 
Olivier Duffez (admin)
Membre du personnel
mais qui supporte ce truc ?
autant utiliser le robots.txt si vraiment on pense que ça vaut le coup de bloquer les outils qui ont envie de respecter vos consignes
 
WRInaute discret
Si je ne dis pas de bêtises Microsoft et Google utilisent la balise NOCACHE et NOARCHIVE, ce qui est logique.

C'est hors-sujet, mais ce qui m'embête c'est qu'une fois notre contenu utilisé pour alimenter une AI, on ne peut plus le retirer si on le souhaite.
 
WRInaute accro
Ce qui me préoccupe, c'est que les gens utilisent ChatGPT au lieu de poser la question sur StackOverflow, donc il y a moins de topics et moins de sources de données pour l'IA. C'est le serpent qui se mord la queue.
 
WRInaute discret
mais qui supporte ce truc ?
autant utiliser le robots.txt si vraiment on pense que ça vaut le coup de bloquer les outils qui ont envie de respecter vos consignes
Bonjour,

Pour ai.txt, j'ai mis un test en place pour voir qui vient lire. On verra. La principale différence avec le robots.txt, c'est qu'il est dirigé vers des types de ressources et n'interdit pas forcement tout pour une page. Je peux choisir de laisser utiliser le contenu .html mais interdire les images, javascript et autres ... Si cela suit, je pense que c'est simple et pratique. A l'instar du DNT (DoNotTrack) qu'implémente tout les navigateurs, mais, dont plus personne ne parle (interet légitime impossible) ...

En ce qui concerne TDM (https://w3c.github.io/tdm-reservation-protocol/spec/), qui est une autre solution, mais qui a un autre objectif, il s'agit de sortir du "optin" par défaut en l'absence de déclaration du propriétaire/webmaster du site (voir ici https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/?uri=CELEX:32019L0790&from=FR - Titre II - Article 4 - Alinéa 3) - Je ne le savais pas, mais, j'étais d'accord pour que l'on utilise les pages/photos ... de mes sites pour le minage de données et la production de contenu généré ... utilisé commercialement ou pas. Je n'ai pas complétement fermé la porte : si tu veux utiliser, tu demandes l'accord.

J'ai mis cela en place également hier. Mais, j'ai trouvé des requêtes sur le fichier tdmresp.json, à partir de l'été dernier (aucune ne semblant émanée de Google, Bing ...)

Tout cela en plus du robots.txt classique pour ChatGPT et autres ...

Cordialement,

Eric

Un exemple de fichier tdmresp.json de type : "accord nécessaire pour une utilisation TDM" :

JSON:
[

  {

  "location": "/",

  "tdm-reservation": 1

  }

]

Et le fichier policy.json qui va bien : " accord nécessaire et à qui le demander :

JSON:
[
{
    "@context": [
        "http://www.w3.org/ns/odrl.jsonld",
        {"tdm": "http://www.w3.org/ns/tdmrep#"}
    ],

    "@type": "Offer",
    "profile": "http://www.w3.org/ns/tdmrep",
    "uid": "https://mondomaine.tld/.well-know/policy",
    "assigner": {
      "uid": "https://mondomaine.tld/pagedelauteurouwebmaster.html",
      "vcard:fn": "PseudoOuNom",
      "vcard:hasEmail": "mailto:mailduwebmasterouresponsable@mondomain.tld",
      "vcard:hasAddress": {
        "vcard:street-address": "Rue de ...",
        "vcard:postal-code": "00000",
        "vcard:locality": "Ville",
        "vcard:country-name": "Pays"
      },
      "vcard:hasTelephone": "tel:+33xxxxxxxxxxx",
      "vcard:hasURL": "https://mondomain.tld//charte-d-usage-ou-conditions-d-utilisation-du-site.html"
    },
    "permission": [{
      "target": "https://mondomain.tld",
      "action": "tdm:mine",
      "duty": [{
        "action": "obtainConsent"
        }
      ]
    }
  ]
}
]

Ils sont tous les deux à placer dans le dossier .well-know en principe.
 
Dernière édition:
Olivier Duffez (admin)
Membre du personnel
des types de ressources
pas vraiment, car il se base uniquement sur l'extension dans l'URL
ça peut marcher pour un PDF (et encore) mais pour du HTML, ça ne se finit pas forcément par .html
je ne suis pas convaincu du succès du truc...
 
WRInaute discret
pas vraiment, car il se base uniquement sur l'extension dans l'URL
Non, non, sur les en-têtes c'est possible aussi, même si c'est une "extension" qui est indiquée dans le fichier ai.txt au moment du téléchargement d'une ressource.

A priori cela fonctionne également pour les ressources déjà intégrées à des jeu de données : avant de télécharger la ressource, le fichier ai.txt est chargé : si la ressource est autorisée, le téléchargement est possible; sinon, elle est supprimée.

Apparement, certains vendeurs d'images et "constructeurs" de jeu de données pour LLM et autre ... l'utilise déjà.
 
WRInaute discret
Tu mets .html dans le fichier ai.txt . Avant de télécharger la ressource, une verification est faite sur les en-têtes de la réponses du serveur pour verifier de quel type de ressource il s'agit.

Le Content-Type de la réponse du serveur :
Code:
Content-Type:
text/html; charset=utf-8

Je teste, on verra ...

Le plus important je pense étant de mettre en place cela : https://w3c.github.io/tdm-reservation-protocol/spec/ puisque ne rien faire signifie "optin/je suis d'accord"
 
WRInaute discret
mais si les principaux crawlers d'IA ne respectent pas tout ça, ça sert à quoi ?
A vérifier dans un jeu de donnée, même existant, qu'une ressource est bien autorisée. Si cela n'est pas respecté, c'est un autre soucis (idem propriété intellectuelle).


Pour le TDM ... J'ai trouvé cela : https://fr.linkedin.com/posts/aymeric-marolleau-datajournalisme_ia-générative-quels-éditeurs-français-bloquent-activity-7127615702932316160-7_ET?trk=public_profile_like_view . Et pour cela, l'irrespect est illégal.
 
WRInaute discret
Bonjour,

Pour la méthode TDM reservation protocol, j'ai fait une erreur dans mon message précedent : le fichier principal à mettre dans le dossier .well-known doit être nommé tdmrep.json et non tdmresp.json.

Un exemple de fichier tdmresp.json de type : "accord nécessaire pour une utilisation TDM" :
Un exemple de fichier tdmrep.json de type : "accord nécessaire pour une utilisation TDM" :

Ce fichier est bien demandé/requêté 1 fois par semaine environ par un robot dont le user-agent est "Spawning-AI". Pas d'autres demandes pour le moment. Je verrai, une fois que la réponse ne sera plus en 404 ...

En ce qui concerne le fichier ai.txt :

Un robot avec pour user-agent "Spawning-AI" est venu le lire.

Idem, j'attends de voir si d'autres services viennent le lire.

J'ai repéré un "robot AI" qui vient lire les images. Etant donné qu'il se masque, je doute fort qu'il respecte les 2 méthodes ci-dessus (ni même le fichier robots.txt). On verra ...

Cordialement,

Eric

PS : les "robots AI" exclus par le fichier robots.txt :

Code:
# IA
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: GPTBot
User-agent: Google-Extended
User-agent: anthropic-ai
User-agent: Omgilibot
User-agent: Omgili
User-agent: FacebookBot
User-agent: Bytespider
Disallow: /
 
Dernière édition:
Discussions similaires
Haut