Projet:Observatoire des IA/Règlementation

Définition de tâches concrètes à réaliser pour la gestion des usages sur Wikipédia.

Définir des règles et recommandations

modifier

Essai : Contrôle des textes générés par IA

modifier

L'essai Contrôle des textes générés par IA en cours d'évaluation sera à placer dans l'espace Wikipédia. Il reprend des éléments de l'essai anglophone Large language models avec un rôle similaire par rapport au projet en:Wikipedia:WikiProject AI Cleanup : informer sur les risques d'infractions aux règles, indiquer des mesures à prendre (modèles, signalements etc.), faire des recommandations pour qui voudrait malgré tout utiliser ces technologies.

Recueil de préconisations sur les règles et recommandations à mettre en place

modifier

La page liste d'usages à traiter est dédiée au descriptif des usages d'IA à règlementer avec le recueil d'avis sur les règles et recommandations qui seraient à implémenter. L'objectif est d'établir les consensus légitimant des actions concrètes de contrôle comme l'annulation de modifications, la catégorisation, la qualification d'une action comme vandalisme, les exigences de transparence etc.

Projet de charte de l'usage responsable d'IA

modifier

État des lieux des positions

modifier

La synthèse ci-dessous s'appuie sur la liste d'échanges et initiatives sur les IA disponible en article détaillé.

Synthèse (en cours)

modifier

L'essentiel des questions concerne l'arrivée sur Wikipédia de productions d'IA génératives au niveau graphique et textes[3], parfois en lien avec d'autres outils comme celui de traduction[4] mais pouvant aussi toucher les échanges communautaires par le biais d'agents conversationnels[5].

Sur les principes, cela interroge la hiérarchie des valeurs wikipédiennes entre humain et technologie : « La technologie est importante. L'humain est essentiel » dit la WMF[6]. L'avenir même de Wikipédia est interrogé, ces évolutions pourraient in fine conduire à une « industrialisation » prise en charge par des entreprises plutôt que par un projet libre et bénévole[7],[8].

On résumera en trois positions la tension humain/technologie[Interprétation personnelle ?] :

  • pôle « humaniste » : critique les IA en défense du projet humain serait-ce pour une question de principe[9],[10] ;
  • pôle « technologiste » : valorise leur vertu pour l'objectif de production jusqu'à des expérimentations de création complète d'article[11] y compris au niveau de la Wikimedia Foundation en dépit du caractère insatisfaisant des productions actuelles[12] ;
  • entre-deux conséquentialiste : critique ou valorise en fonction de ce qui est perçu des avantages ou dommages que donneraient les usages[9].

Une autre approche pourrait être d'utiliser l'IA pour vérifier la qualité des travaux produits/l'adéquation des sources utilisées[réf. nécessaire].

Discussions des problèmes

modifier
Génération de texte
modifier

Des objections portent sur des questions de principe comme le respect du droit d'auteur[13],[14] ou l'aspect communautaire de la rédaction[10] et sur la contestation d'améliorations qualitatives[4],[3] avec l'inquiétude d'une dégradation accélérée par la facilité d'usage et l’apparence de fiabilité donnée aux textes[15],[16].

L'essai anglophone Large language models donne les risques suivants d'infraction aux politiques de Wikipédia :

Génération d'images
modifier

Cf. l'existant à synthétiser

Sujets connexes
modifier

Des questions sur l'outil de traduction ou des bots générateurs de contenus sans IA[17] ont été soulevées.[18]

Propositions d'usages acceptables

modifier

Discussions des règles d'usages

modifier
Génération de texte
modifier

Globalement, les propositions d'usage partent du principe qu'il ne s'agit que d'outils pour améliorer la quantité et la qualité des articles ou se faciliter la tâche.

L'essai anglophone Large language models considère que : une compétence spécifique est requise, les résumés de modification doivent indiquer l'usage d'IA, les textes volumineux sont généralement mauvais mais les LLM peuvent être utilisés pour réviser ou développer un texte existant ou pour générer des idées à condition qu'on connaisse le sujet (paysage des sources maîtrisé) et que tout le texte soit ré-évalué (sources, neutralité, qualité grammaticale etc.).

Il rappelle la responsabilité des utilisateurs devant la communauté, qu'on n'ait pas à nettoyer après eux, que Wikipédia n'est pas un laboratoire et qu'on ne doit pas s'en servir pour générer des réponses dans une discussion. L'utilisation répétée et abusive constitue une contribution perturbatrice qui peut conduire à un blocage ou à une interdiction.

L'essai Intelligence artificielle a débuté comme avertissement sur les défauts des IA pour évoluer ensuite sur des explications d'usages qui ne poseraient pas de problèmes selon les auteurs[Qui ?] : rédaction à partir de source avec un résultat ensuite à vérifier de manière normale, correction orthographique, création technique comme celle d'infobox.

Sources
modifier

La question s'étend au-delà de Wikipédia même avec le problème de sources concernées au niveau universitaire, dans l'édition[26] ou la presse[27].

Les sources générées par LLM ne sont pas considérées comme des sources fiables à utiliser[28].

Notes et références

modifier
  1. Il n'existe pour l'heure aucune règle ou recommandation dédiée mais celles-ci pourraient contenir des divergences par rapport à ce qui est défini ici, y compris sans autre justification que la volonté arbitraire des votants à une prise de décision, et celle-ci prévaudra donc sur les engagements par la charte.
  2. à voir ce qu'il y aurait d'autre à traiter p.e. vis-à-vis du sourçage ou des traductions (cf. exemple de transparence par une utilisatrice)
  3. a et b Discussion sur des générations de RI qui seront annulées
  4. a et b Discussion sur des créations d'articles problématiques à partir de traduction
  5. RA contre Living Atom, compte bloqué
  6. (en) « Knowledge is human. Technology is important. Humanity is essential. » - version archivée du 7 octobre 2024 évoquant les IA - « passing knowledge from generation to generation is an essential part of what makes us human »
  7. discussion Wikipéd'IA
  8. (en) Selena Deckelmann, « Wikipedia’s value in the age of generative AI »,
  9. a et b Par Pa2chant.bis : les outils sont au service des humains, qui n'ont pas à passer leur temps à vérifier et corriger des écrits générés par une machine; d'ailleurs le faible nombre de bénévoles n'est pas en mesure d'absorber une production qui serait facilement accrue
  10. a et b Argument de vote au sondage - « si ce ne sont pas des humains qui contribuent, à quoi bon être ici ? »
  11. Bistro 2-10-2024, Softenpoche - « Je teste depuis un mois une encyclo expérimentale entièrement basée sur 2IA fonctionnant en tandem [...] le créateur de l'article n'est pas son auteur, mais son organisateur. »
  12. STORM: AI agents role-play as "Wikipedia editors" and "experts" to create Wikipedia-like articles, Wikipedia type Articles Generated by LLM (Not for Publication on Wikipedia)
  13. (en) Dan Milmo, « ‘Impossible’ to create AI tools like ChatGPT without copyrighted material, OpenAI says », The Guardian,‎ (lire en ligne)
  14. (en) Audrey Pope, « NYT v. OpenAI: The Times’s About-Face », sur harwardlawreview, (consulté le )
  15. Cas mentionné sur le bistro
  16. (en) Michael Townsen Hicks, James Humphries et Joe Slater, « ChatGPT is bullshit », Ethics and Information Technology, vol. 26, no 38,‎ (DOI 10.1007/s10676-024-09775-5, lire en ligne)
  17. Roland45-Bot automatisant notamment l'écriture de sections « climat » depuis 2021, a priori sans IA générative
  18. Ici et Discussion_Projet:Observatoire_des_IA#c-Fabius_Lector-20241011191700-Madelgarius-20241011170600
  19. Wikipédia:Intelligence_artificielle#Débogage
  20. Wikipédia:Intelligence_artificielle#Synthèse_des_sources
  21. La synthèse de sources consiste à utiliser un LLM pour synthétiser un ensemble de sources (pdf, urls, docs..), dans un texte résumant les points importants de l'ensemble, sourcé par les sources données. Un exemple de tel LLM est NotebookLM. Cette approche pourrait modérer, voire annuler, les inconvénients évoqués pour la génération de texte, même si aucun exemple probant n'a été apporté :
    • « hallucinations » et travaux inédits : le LLM ne résume que les documents présentés
    • contenus non-sourcés ou invérifiables : le LMM source sa génération avec les documents présentée, et surligne même l'endroit exploité.
    • biais algorithmiques et non-neutralité : c'est l'utilisateur qui sélectionne les sources à utiliser. L'utilisateur peut (et doit) vérifier si le LLM a bien sélectionné les points importants des documents.
    • violation du droit d'auteur : le LLM est moins "créatif" que dans la génération, et a moins de droits propres. Le degré de paraphrase est à vérifier, comme pour une contribution humaine.
  22. Wikipédia:Intelligence_artificielle#Plan_d'un_article
  23. Wikipédia:Intelligence_artificielle#Orthographe
  24. Wikipédia:Intelligence_artificielle#Création_d'infobox
  25. Wikipédia:Intelligence_artificielle#Bots
  26. « Sur Amazon, des milliers de livres seraient rédigées par intelligence artificielle sous de faux noms », Ouest-France,‎ (lire en ligne)
  27. Claudia Cohen, « Claire Léost, présidente de Prisma Media : « Voici a publié sur son site ses premiers articles avec l’aide de l’IA » », Le Figaro,‎ (lire en ligne)
  28. Essai anglophone Large language models