Analyse de données textuelles

Cet article est une ébauche concernant l’informatique et la linguistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

L'analyse de données textuelles (ou ADT) est une approche des sciences humaines qui envisage les textes comme des données organisées qui, constituées en corpus, peuvent être analysées indépendamment de leur énonciataire, voire de leur énonciation. Le développement des outils informatiques a donné une impulsion indéniable à cette approche.

L'analyse de données textuelles, qui est inspirée par la linguistique structurelle et l'analyse de discours, est autant qualitative que quantitative. Elle cherche à qualifier les éléments des textes à l'aide de catégories et à les quantifier en analysant leur répartition statistique. L'approche a été très inspirée par les travaux de Jean-Paul Benzécri et a été utilisée dès les années 1960 sur des corpus de textes littéraires ou de textes politiques.

Terminologie

Appliquée strictement au lexique, l'ADT est parfois appelée lexicométrie ; appliquée au texte, elle est parfois appelée textométrie ; appliquée de manière générale au discours, elle est parfois appelée logométrie.

Article détaillé : logométrie.

Les JADTs

Depuis 1992, la communauté des chercheurs en analyse de données textuelles se réunit en congrès tous les deux ans lors de Journées internationales d'analyse statistique de données textuelles (JADT) : 1992 Barcelone ; 1994 Montpellier ; 1996 Rome ; 1998 Nice ; 2000 Lausanne ; 2002 Saint-Malo ; 2004 Louvain-la-Neuve ; 2006 Besançon ; 2008 Lyon ; 2010 Rome ; 2012 Liège ; 2014 Paris ; 2016 Nice ; 2018 Rome ; 2020 Toulouse ; 2022 Naples ; 2024 Bruxelles). Les actes sont publiées et accessibles en ligne sur le site Lexicométrica^[1].

Logiciels


Nom	Date de lancement	Coût	Services	Développement
Alceste	1979	payant		Max Reinert, société Image
Aquad	1987	gratuit		Tübingen Universität (Günter L. Huber)
Atlas.ti	1993	payant		Technische Universität Berlin (Thomas Muhr)
Analyse SHS	2012	gratuit	AFC, ACP, Classification ascendante hiérarchique	Pôle Informatique de Recherche et d'enseignement en Histoire de l'Université de Paris-I (« Panthéon-Sorbonne »)
DTM		gratuit		L. Lebart, ENST
GarganText	2013	gratuit		équipe “Digital Humanities”, ISC-PIF, CNRS
Hyperbase	1989	gratuit		Université de Nice et CNRS
IRaMuTeQ	2009	gratuit		Université de Toulouse
Le Trameur	2014	gratuit		CLESTHIA - Langage, systèmes, discours - EA 7345 U. de Paris-III Sorbonne-Nouvelle
Lexico	1994	gratuit	fréquences des mots, contexte des termes, mesure du caractère non aléatoire de l'apparition de mots ou de suites de mots dans un corpus distribué en fonction de variables connues	André Salem (ENS Fontenay-Saint-Cloud, université de Paris-III Sorbonne Nouvelle)
NooJ	2004	gratuit		Max Silberztein, Université de Franche-Comté
NVivo	1981	payant		Tom & Lyn Richards
Prospéro	2011	gratuit		association Doxa
QDA Miner		freemium
R.TeMiS	2016	gratuit		Milan Bouchet-Valat (Ined), Gilles Bastin (Sciences Po Grenoble, Pacte), Bénédicte Garnier (Ined), Antoine Chollet (ENSAI)
SATO	2004	gratuit et payant		Université du Québec à Montréal (François Daoust)
Sémato	2007	gratuit et payant		Université du Québec à Montréal (Pierre Plante, Lucie Dumas, André Plante)
Statistica Text Miner (StatSoft)	1993	payant		société TIBCO Software Inc. (1997)
Taltac (en italien)	2000	gratuit		Sergio Bolasco, Francesco Baiocchi e Adolfo Morrone
TXM	2010	gratuit		École normale supérieure de Lyon, université de Franche-Comté
T-Lab
Tropes	1994	gratuit		Pierre Molette, Agnès Landré, Rodolphe Ghiglione
Sphinx Quali
Voyant Tools	2021	gratuit		Université McGill, Montréal (Stéfan Sinclair, Geoffrey Rockwell)
WordStat	1998	gratuit

Notes et références

↑ « Lexicometrica », sur univ-paris3.fr (consulté le 17 avril 2023).

Articles connexes

Liens externes

Portail de la sociologie

[1] « Lexicometrica », sur univ-paris3.fr (consulté le 17 avril 2023).

[1]