Projet:Observatoire des IA/Règlementation
Définition de tâches concrètes à réaliser pour la gestion des usages sur Wikipédia.
Définir des règles et recommandations
modifierEssai : Contrôle des textes générés par IA
modifierL'essai Contrôle des textes générés par IA en cours d'évaluation sera à placer dans l'espace Wikipédia. Il reprend des éléments de l'essai anglophone Large language models avec un rôle similaire par rapport au projet en:Wikipedia:WikiProject AI Cleanup : informer sur les risques d'infractions aux règles, indiquer des mesures à prendre (modèles, signalements etc.), faire des recommandations pour qui voudrait malgré tout utiliser ces technologies.
Recueil de préconisations sur les règles et recommandations à mettre en place
modifierLa page liste d'usages à traiter est dédiée au descriptif des usages d'IA à règlementer avec le recueil d'avis sur les règles et recommandations qui seraient à implémenter. L'objectif est d'établir les consensus légitimant des actions concrètes de contrôle comme l'annulation de modifications, la catégorisation, la qualification d'une action comme vandalisme, les exigences de transparence etc.
Projet de charte de l'usage responsable d'IA
modifierPour mobiliser sur les principes d'auto-contrôle faute de règles et recommandations adoptées :
- avoir au format essai une Wikipédia:Charte de l'usage responsable d'IA donnant des principes de responsabilité avec une annexe informant sur les raisons de la demande et les modalités concrètes proposées pour sa réalisation.
- un mode d'adhésion volontaire simple, boite utilisateur dédiée et/ou catégorisation de la page utilisateur dans Catégorie:Adhérent à la charte d'usage responsable d'IA.
On propose, on verra bien si c'est mis en œuvre, et peut-être que des variantes plus contraignantes ou moins contraignantes verront le jour en concurrence tant qu'il n'y aura pas de cadre « légal » commun.
- Proposition de procédure
- discussion préalable sur le projet Observatoire des IA ;
- mise en place sur l'espace Wikipédia
- présentation à la communauté avec appel à commentaire ;
- éventuels amendements ;
Note : la charte relevant de l'adhésion volontaire, une procédure d'amendement pourrait relever du simple sondage.
Proposition initiale Version 2 à discuter par ici
modifier« La présente charte entend encourager à la maîtrise collective et transparente des effets que pourraient avoir sur l'encyclopédie la démocratisation des technologies génératrices de contenus, de manière directe ou par assistance dans leur réalisation. Après avoir pris connaissance des considérations de principe et techniques présentées en annexe, les adhérents s'engagent sur :
- un principe de légalité : suivre les règles et recommandations sur l'usage d'IA édictées par consultation communautaire lesquelles prévalent sur l'adoption volontaire des éléments de la charte[1] ;
- un principe prudentiel : éviter tout risque de dégradation de l'encyclopédie et de son fonctionnement communautaire ;
- un principe de responsabilité personnelle : veiller par soi-même à un usage correct sans déléguer la tâche au reste de la communauté ;
- un principe de transparence : utiliser les moyens d'information sur un usage tels que précisés en annexe et qui pourront notamment comprendre :
- l'indication en résumé de modification de l'usage d'une technologie générative ;
- la catégorisation de l'article dans les catégorie adéquates ;
- la réponse aux sollicitations sur ce qui relève de l'IA dans le contenu proposé.
»
BU d'adhésion
modifierÉbauche d'annexe
modifierPourquoi cette charte
modifierIl est demandé un engagement de responsabilité pour répondre à :
- des questions de principes très généraux concernant Wikipédia et son avenir ;
- des questions légales de base concernant le droit d'auteur pour les données d'entraînement que ce soit de LLM ou de générateurs d'image. Il n'y a pas d'usage neutre des logiciels propriétaires dès lors qu'ils sont opaques sur leurs données d'entraînement et leur algorithmes de correction ;
- la tension entre les discussions de problèmes et des propositions d'usages acceptables ;
- diverses questions connexes[2]
Recommandations pour appliquer les principes
modifierIl est proposé d'appliquer les principes en suivant ces recommandations :
- De manière générale, faute de cadre légal externe ou interne au Wikipédia francophone
- ne pas utiliser les technologies actuelles (fin 2024) si on n'a pas au minimum développé la compétence spécifique requise avec compréhension de leurs défauts intrinsèques, techniques, éthiques et par rapport à Wikipédia (principe prudentiel). Cela concerne aussi les intégrations de LLM dans de la bureautique, des moteurs de recherche, les générations d'images dans des suites logicielles etc. (cf. la documentation).
- ne pas laisser à d'autres le soin de vérifier ou corriger un contenu généré ceci impliquant de ne pas créer d'ébauche d'article ainsi (responsabilité personnelle) ;
- ne pas utiliser d'agents conversationnel pour répondre dans les discussions (responsabilité personnelle & transparence) ;
- ne pas renvoyer à des sources générées par IA (légalité & prudentiel (droit d'auteur, pertinence...))
- Principe de transparence :
- indiquer en résumé de modification l'usage d'une technologie générative (recommandation forte)
- catégoriser l'article avec la catégorie adéquate : la catégorisation permettra au minimum une statistique sur les usages. Cf. le sujet en cours Création de catégories
- Pour les LLM et apparentés
- Certaines aides sont invisibles et ne posent pas de souci technique (la question légale/éthique reste) comme la transformation en wikicode d'un tableau ou un contrôle orthographique supplémentaire ;
- tout ce qui relève du style peut poser problème[réf. nécessaire].
- Pour les illustrations
- les illustrations à prétention réaliste ou artistique sont à prohiber sauf accord communautaire préalable ;
- les illustrations techniques qui suivent des formats standardisés tels que schéma électrique, modélisation ou représentation des molécules etc. ne posent normalement pas de problème spécifique par rapport à d'autres outils informatiques, seule l'exactitude est à vérifier[réf. nécessaire].
- Principe de transparence :
- utiliser le modèle {{TIA}} pour signaler toute image ;
- catégoriser l'article concerné avec la catégorie Catégorie:Page comportant une illustration générée par une IA
État des lieux des positions
modifierLa synthèse ci-dessous s'appuie sur la liste d'échanges et initiatives sur les IA disponible en article détaillé.
L'essentiel des questions concerne l'arrivée sur Wikipédia de productions d'IA génératives au niveau graphique et textes[3], parfois en lien avec d'autres outils comme celui de traduction[4] mais pouvant aussi toucher les échanges communautaires par le biais d'agents conversationnels[5].
Sur les principes, cela interroge la hiérarchie des valeurs wikipédiennes entre humain et technologie : « La technologie est importante. L'humain est essentiel » dit la WMF[6]. L'avenir même de Wikipédia est interrogé, ces évolutions pourraient in fine conduire à une « industrialisation » prise en charge par des entreprises plutôt que par un projet libre et bénévole[7],[8].
On résumera en trois positions la tension humain/technologie[Interprétation personnelle ?] :
- pôle « humaniste » : critique les IA en défense du projet humain serait-ce pour une question de principe[9],[10] ;
- pôle « technologiste » : valorise leur vertu pour l'objectif de production jusqu'à des expérimentations de création complète d'article[11] y compris au niveau de la Wikimedia Foundation en dépit du caractère insatisfaisant des productions actuelles[12] ;
- entre-deux conséquentialiste : critique ou valorise en fonction de ce qui est perçu des avantages ou dommages que donneraient les usages[9].
Une autre approche pourrait être d'utiliser l'IA pour vérifier la qualité des travaux produits/l'adéquation des sources utilisées[réf. nécessaire].
Discussions des problèmes
modifierGénération de texte
modifierDes objections portent sur des questions de principe comme le respect du droit d'auteur[13],[14] ou l'aspect communautaire de la rédaction[10] et sur la contestation d'améliorations qualitatives[4],[3] avec l'inquiétude d'une dégradation accélérée par la facilité d'usage et l’apparence de fiabilité donnée aux textes[15],[16].
L'essai anglophone Large language models donne les risques suivants d'infraction aux politiques de Wikipédia :
- « hallucinations » et travaux inédits ;
- contenus non-sourcés ou invérifiables (cf. Vérifiabilité) ;
- biais algorithmiques et non-neutralité (cf. Neutralité de point de vue) ;
- violation du droit d'auteur (cf. Droit d'auteur, Large language models and copyright, Copyright Analysis of ChatGPT).
Génération d'images
modifierSujets connexes
modifierDes questions sur l'outil de traduction ou des bots générateurs de contenus sans IA[17] ont été soulevées.[18]
Propositions d'usages acceptables
modifier- Débogage[19]
- Synthèse des sources[pertinence contestée][20],[21]
- Plan d'un article[22]
- Orthographe[23]
- Création d'infobox[24]
- Bots[25]
- Génération de tableaux ou graphiques à partir de sources[réf. nécessaire]
Discussions des règles d'usages
modifierGénération de texte
modifierGlobalement, les propositions d'usage partent du principe qu'il ne s'agit que d'outils pour améliorer la quantité et la qualité des articles ou se faciliter la tâche.
L'essai anglophone Large language models considère que : une compétence spécifique est requise, les résumés de modification doivent indiquer l'usage d'IA, les textes volumineux sont généralement mauvais mais les LLM peuvent être utilisés pour réviser ou développer un texte existant ou pour générer des idées à condition qu'on connaisse le sujet (paysage des sources maîtrisé) et que tout le texte soit ré-évalué (sources, neutralité, qualité grammaticale etc.).
Il rappelle la responsabilité des utilisateurs devant la communauté, qu'on n'ait pas à nettoyer après eux, que Wikipédia n'est pas un laboratoire et qu'on ne doit pas s'en servir pour générer des réponses dans une discussion. L'utilisation répétée et abusive constitue une contribution perturbatrice qui peut conduire à un blocage ou à une interdiction.
L'essai Intelligence artificielle a débuté comme avertissement sur les défauts des IA pour évoluer ensuite sur des explications d'usages qui ne poseraient pas de problèmes selon les auteurs[Qui ?] : rédaction à partir de source avec un résultat ensuite à vérifier de manière normale, correction orthographique, création technique comme celle d'infobox.
Sources
modifierLa question s'étend au-delà de Wikipédia même avec le problème de sources concernées au niveau universitaire, dans l'édition[26] ou la presse[27].
Les sources générées par LLM ne sont pas considérées comme des sources fiables à utiliser[28].
Notes et références
modifier- Il n'existe pour l'heure aucune règle ou recommandation dédiée mais celles-ci pourraient contenir des divergences par rapport à ce qui est défini ici, y compris sans autre justification que la volonté arbitraire des votants à une prise de décision, et celle-ci prévaudra donc sur les engagements par la charte.
- à voir ce qu'il y aurait d'autre à traiter p.e. vis-à-vis du sourçage ou des traductions (cf. exemple de transparence par une utilisatrice)
- Discussion sur des générations de RI qui seront annulées
- Discussion sur des créations d'articles problématiques à partir de traduction
- RA contre Living Atom, compte bloqué
- (en) « Knowledge is human. Technology is important. Humanity is essential. » - version archivée du 7 octobre 2024 évoquant les IA - « passing knowledge from generation to generation is an essential part of what makes us human »
- discussion Wikipéd'IA
- (en) Selena Deckelmann, « Wikipedia’s value in the age of generative AI »,
- Par Pa2chant.bis : les outils sont au service des humains, qui n'ont pas à passer leur temps à vérifier et corriger des écrits générés par une machine; d'ailleurs le faible nombre de bénévoles n'est pas en mesure d'absorber une production qui serait facilement accrue
- Argument de vote au sondage - « si ce ne sont pas des humains qui contribuent, à quoi bon être ici ? »
- Bistro 2-10-2024, Softenpoche - « Je teste depuis un mois une encyclo expérimentale entièrement basée sur 2IA fonctionnant en tandem [...] le créateur de l'article n'est pas son auteur, mais son organisateur. »
- STORM: AI agents role-play as "Wikipedia editors" and "experts" to create Wikipedia-like articles, Wikipedia type Articles Generated by LLM (Not for Publication on Wikipedia)
- (en) Dan Milmo, « ‘Impossible’ to create AI tools like ChatGPT without copyrighted material, OpenAI says », The Guardian, (lire en ligne)
- (en) Audrey Pope, « NYT v. OpenAI: The Times’s About-Face », sur harwardlawreview, (consulté le )
- Cas mentionné sur le bistro
- (en) Michael Townsen Hicks, James Humphries et Joe Slater, « ChatGPT is bullshit », Ethics and Information Technology, vol. 26, no 38, (DOI 10.1007/s10676-024-09775-5, lire en ligne)
- Roland45-Bot automatisant notamment l'écriture de sections « climat » depuis 2021, a priori sans IA générative
- Ici et Discussion_Projet:Observatoire_des_IA#c-Fabius_Lector-20241011191700-Madelgarius-20241011170600
- Wikipédia:Intelligence_artificielle#Débogage
- Wikipédia:Intelligence_artificielle#Synthèse_des_sources
- La synthèse de sources consiste à utiliser un LLM pour synthétiser un ensemble de sources (pdf, urls, docs..), dans un texte résumant les points importants de l'ensemble, sourcé par les sources données. Un exemple de tel LLM est NotebookLM.
Cette approche pourrait modérer, voire annuler, les inconvénients évoqués pour la génération de texte, même si aucun exemple probant n'a été apporté :
- « hallucinations » et travaux inédits : le LLM ne résume que les documents présentés
- contenus non-sourcés ou invérifiables : le LMM source sa génération avec les documents présentée, et surligne même l'endroit exploité.
- biais algorithmiques et non-neutralité : c'est l'utilisateur qui sélectionne les sources à utiliser. L'utilisateur peut (et doit) vérifier si le LLM a bien sélectionné les points importants des documents.
- violation du droit d'auteur : le LLM est moins "créatif" que dans la génération, et a moins de droits propres. Le degré de paraphrase est à vérifier, comme pour une contribution humaine.
- Wikipédia:Intelligence_artificielle#Plan_d'un_article
- Wikipédia:Intelligence_artificielle#Orthographe
- Wikipédia:Intelligence_artificielle#Création_d'infobox
- Wikipédia:Intelligence_artificielle#Bots
- « Sur Amazon, des milliers de livres seraient rédigées par intelligence artificielle sous de faux noms », Ouest-France, (lire en ligne)
- Claudia Cohen, « Claire Léost, présidente de Prisma Media : « Voici a publié sur son site ses premiers articles avec l’aide de l’IA » », Le Figaro, (lire en ligne)
- Essai anglophone Large language models