Tanagra (logiciel)
Tanagra est un logiciel gratuit d'exploration de données destiné à l’enseignement et à la recherche. Il implémente une série de méthodes de fouille de données issues du domaine de la statistique exploratoire (en), de l'analyse de données, de l’apprentissage automatique et des bases de données[1].
C'est un projet ouvert au sens qu'il est possible à tout chercheur d'accéder au code, d'ajouter ses propres algorithmes et de diffuser, toujours gratuitement, le logiciel modifié. Outre la disponibilité du code source, ce logiciel se démarque des autres logiciels de fouille de données comparables en performance de traitement, par une interface sobre, des méthodes statistiques clairement identifiées, une documentation complète en français et anglais[2],[3],[4].
Tanagra est un projet académique, il est largement reconnu dans le monde universitaire, il fait partie des logiciels référencés pour l'enseignement de la statistique dans les départements STID des IUT (2011)[5]. Tanagra est régulièrement cité dans les études réelles[6],[7] et dans les articles de comparaison de logiciels de data mining[8],[9].
Historique
modifierTanagra, créé initialement par Ricco Rakotomalala[10] est diffusé depuis . Il fait suite à la version 3 de Sipina[4], un logiciel de data mining gratuit réalisé par le même auteur. Sipina est destiné à l’apprentissage supervisé, plus particulièrement à la construction interactive des arbres de décision. Il est encore en ligne aujourd’hui, il est maintenu bien que ses fonctionnalités évoluent peu ces dernières années.
La conception de Tanagra intègre une plus large panoplie de techniques issues des statistiques, de l’analyse de donnée et du data mining. Le mode opératoire du logiciel s’inscrit dans le standard du domaine. L’utilisateur spécifie les traitements et leurs enchaînements à l’aide d’un diagramme qu’il définit interactivement[2],[3].
À partir de 2006, Tanagra est devenu un projet éducatif plus large. Il s’accompagne maintenant d’une documentation importante, sous forme d’ouvrages, de supports de cours et de tutoriels, tous gratuits et accessibles librement sans inscription préalable. Cette activité prend une place particulièrement importante dans l’évolution du projet.
Description
modifierLe logiciel a été réalisé pour un environnement WIN32. Il s'exécute donc sous Windows, ou sous Linux via WINE[11].
Tanagra fonctionne par diagramme de traitements. Ce mode opératoire a été initié et popularisé par le logiciel SPAD au début des années 1990. La « filière » permet de définir les analyses statistiques et leur enchaînement sous forme graphique avec une succession d’icônes reliées entre elles. De nombreux outils libres et commerciaux ont adopté ce mode de présentation aujourd’hui (Dataiku, Knime, RapidMiner, Neural Designer, SAS Entreprise Miner, IBM SPSS Modeler). Tanagra simplifie cependant la représentation en utilisant un diagramme arborescent. Il est possible de définir plusieurs types de traitements à partir d’une seule source de données.
Tanagra intègre une large panoplie de techniques issues de la statistique (tests paramétriques, tests non paramétriques), de l’analyse de données (analyse factorielle, classification automatique), de l’apprentissage automatique (arbres de décision, machines à vaste marge, forêts aléatoires), et de l’économétrie (régression linéaire).
Tanagra peut s’intégrer dans les tableurs des principales suites bureautiques (Excel de Microsoft Office, Calc d’Open Office et LibreOffice) via une macro-complémentaire. Cette fonctionnalité a beaucoup contribué à la diffusion et à l’utilisation du logiciel.
Références
modifier- (en) Y. Ramamohan, K. Vasantharao, C. Kalyana Chakravarti et A.S.K.Ratnam, « A Study of Data Mining Tools in Knowledge Discovery Process : V. Tanagra Tool », International Journal of Soft Computing and Engineering (IJSCE), vol. 2, , p. 192 (ISSN 2231-2307, lire en ligne)
- Vincent Isoz, « Éléments de data-mining avec Tanagra »
- « Tanagra », sur Université Lyon II
- Stéphane Tufféry, Data mining et statistique décisionnelle : L'intelligence des données, Éditions Technip, (lire en ligne), p. 115-123, 289
- G. Grégoire, F.X. Jollois, J.F. Petiot, A. Qannari, S. Sabourin, P. Swertwaegher, J.C Turlot, V. Vandewalle, S. Viguier-Pla, "Les logiciels et l'enseignement de la statistique dans les départements Statistique et Informatique Décisionnelle (STID) des IUT", in Statistique et Enseignement, Numéro spécial "Des logiciels au service de l'enseignement de la statistique", 2(2), pages 5-24, 2011.
- S.G. Jacob and R.G. Ramani, “Evolving Efficient Clustering and Classification Patterns in Lymphography Data through Data Mining Techniques”, in International Journal on Soft Computing (IJSC), 3(3), 119-132, 2012.
- E. Kirkos, C. Spathis, A. Nanopoulos, Y. Manolopoulos, “Identifying Qualified Auditor's Opinions: A Data Mining Approach”, in Journal of Emerging Technologies in Accouting, 4(1), 183-197, 2007.
- R.M. Rahman and F. Afroz, “Comparison of Various Classification Techniques Using Different Data Mining Tools for Diabete Diagnosis”, in Journal of Software Engineering and Applications, 6, 85-97, 2013.
- H. Solanki “Comparative Study of Data Mining Tools and Analysis with Unified Data Mining Theory”, in International Journal of Computer Applications, 75(16), 23-28, 2013.
- (en) Thaveeporn Pulket, Universal Prediction Model for Construction Litigation, ProQuest, (lire en ligne)
- https://eric.univ-lyon2.fr/ricco/tanagra/fichiers/fr_Tanagra_under_Linux.pdf
Bibliographie
modifier- Ricco Rakotomalala, « TANAGRA : un logiciel gratuit pour l’enseignement et la recherche », in Actes de EGC’2005, RNTI-E-3, vol. 2, pages 697-702, 2005.
- Ricco Rakotomalala, « Tanagra : une plate-forme d’expérimentation pour la fouille de données », in Modulad, 32, pages 70–85, 2005
- P. Nancy, R. Geetha Ramani, « A Comparison on Performance of Data Mining Algorithms in Classification of Social Network Data », in International Journal of Computer Applications (0975 – 8887), pages 47 – 53, vol. 32, 8, 2011.
- Ritu Ganda, Vijay Chahar, « A Comparative Study on Feature Selection Using Data Mining Tools », in International Journal of Advanced Research in Computer Science and Software Engineering, pages 26 – 33, vol. 3, no 9, 2013
- K. R. Lakshmi, M. Veera Krishna, S. Prem Kumar, « Performance Comparison of Data Mining Techniques for Predicting of Heart Disease Survivability », in International Journal of Scientific and Research Publications, pages 1 – 10, vol 3, no 6, 2013
- Rashedur M. Rahman, Farhana Afroz, « Comparison of Various Classification Techniques Using Different Data Mining Tools for Diabetes Diagnosis », in Journal of Software Engineering and Applications vol. 6, pages 85–97, 2013. DOI 10.4236/jsea.2013.63013