Tagmatica est une société française spécialisée dans l'informatique documentaire et linguistique. Elle a été fondée en 2002 par Gil Francopoulo qui est l'auteur de la norme ISO des dictionnaires électroniques LMF.

Tagmatica
logo de Tagmatica

Création Voir et modifier les données sur Wikidata
Personnages clés Gil Francopoulo
Forme juridique SASU
Siège social Paris
Drapeau de la France France
Activité Exploration de données
Traitement automatique du langage naturel
Reconnaissance d'entités nommées
Logiciel
Fouille de textes
Standardisation
Produits TagParser (18 langues européennes)
SIREN 828193961[1]Voir et modifier les données sur Wikidata
Site web www.tagmatica.com [1]

Histoire modifier

La société Tagmatica, crée le a été dissoute le [2].

Une autre société (avec le nom Tagmatica SAS) a été immatriculée le [3].

Activités modifier

Les activités sont la standardisation, les dictionnaires, les analyseurs morphologiques, syntaxiques et sémantiques des langues, la détection de langue et le calcul automatique de thématiques.

Contexte modifier

La majeure partie de la connaissance étant formulée sous forme de textes, il s'agit de les traiter automatiquement pour en obtenir les structures syntaxiques, les entités nommées, les citations et/ou des indicateurs numériques qui synthétisent le corpus.
Au niveau syntaxique, alors que la plupart des acteurs se limitent à l'application de règles de filtrage par motif sur de petits fragments de phrases, les outils de Tagmatica réalisent des analyses syntaxiques complètes (sur certaines langues) afin de détecter à la fois les attachements de courte, mais aussi ceux de longue distance. Ces derniers sont difficiles à traiter et posent de sérieux problèmes aux outils datant d'une dizaine d'années. Le défi était de mettre au point des outils rapides et robustes pour analyser des dizaines de millions de mots dans un temps raisonnable.
Au niveau sémantique, l'analyse utilise une base de connaissances multilingues comportant 600 000 termes qui est structurée selon une ontologie d'un millier de types[4].

Langues traitées modifier

L'analyseur développé par Tagmatica s'appelle TagParser. Il effectue une analyse linguistique complète (dont les entités nommées) pour le français, l'anglais et l'espagnol. Une détection des entités nommées est réalisée pour l'allemand, le danois, le grec, l'italien, le letton, le lituanien, le maltais, le néerlandais, le polonais, le portugais, le roumain, le slovaque, le slovène, le suédois et le tchèque. Le nombre de langues traitées est donc au total de 18 langues européennes.

Utilisation modifier

TagParser est un logiciel utilisé depuis plusieurs années par les services de la Commission européenne pour aider à élaborer les revues de presse.

Respect des standards modifier

Ayant participé à l'élaboration de spécifications ISO et W3C, Tagmatica se devait de respecter les standards professionnels en la matière. Les interfaces sont définies en XML. Tous les outils et données sont codés en Unicode. Les dictionnaires sont conformes à la norme LMF. L'ontologie respecte les recommandations du W3C pour le Web sémantique avec une définition en OWL.

Projets collaboratifs scientifiques modifier

Tagmatica a participé aux projets Technolangue-Easy, eContent-LIRICS, ANR-Passage, ITA-Metaverse, Scribo et ANR-Lelie.

Principales publications modifier

  • Language Resources and Evaluation / Springer Verlag 2008 (DOI: 10.1007/s10579-008-9077-5): Multilingual resources for NLP in the lexical markup framework (LMF)
  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2]
  • Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF) [3]
  • Language Resources and Evaluation LREC-2006/Genoa: The relevance of standards for research infrastructures [4]
  • Experiments with a Chunker and Lucene, in Advances in Cross-Language Information Retrieval, 2003, Springer-Verlag, Berlin.

Références modifier

  1. Sirene, (base de données)Voir et modifier les données sur Wikidata
  2. « TAGMATICA à PARIS (441857455), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le )
  3. « TAGMATICA SAS à PARIS (828193961), CA, bilan, KBIS - Infogreffe », sur www.infogreffe.fr (consulté le )
  4. Francopoulo G. Demay F. 2011, A deep ontology for Named Entities, International Conference on Computational Semantics, Interoperable Semantic Annotation Workshop, Oxford

Sites web modifier