Petit modèle de langage

modèle de langage construit avec peu de données

Dans le domaine de l'intelligence artificielle générative, un petit modèle de langage (SLM ou small langage model) est un système d'intelligence artificielle conçu pour comprendre et générer du langage humain à une échelle réduite par rapport aux modèles de langage plus vastes[1].

Définition modifier

Un petit modèle de langage est un système informatique qui utilise des techniques d'apprentissage automatique pour traiter le langage naturel mais, contrairement aux grands modèles, les SLM nécessitent moins de données et de puissance de calcul pour fonctionner. Cette caractéristique les rend plus pratiques pour une utilisation dans des appareils avec des ressources limitées ou pour des applications nécessitant une réponse rapide[2]. Il n'existe pas de limite précise du nombre de paramètres permettant de distinguer entre les petits et les grands modèles de langage.

Applications des SLM modifier

Les petits modèles de langage sont utilisés pour diverses fonctions, telles que la traduction automatique, la génération de texte, la complétion et la correction d'écrits, la reconnaissance vocale et la transcription, et les assistants virtuels[3]. Ces usages alimentent dans une grande variété d'applications, allant des assistants vocaux aux outils d'aide à la rédaction. Ils sont particulièrement utiles dans les environnements à ressources limitées, comme les appareils mobiles ou les systèmes embarqués.

Avantages des SLM modifier

La taille plus petite des SLM les rend plus rapides et moins coûteux à entraîner, tout en étant suffisamment performants pour de nombreuses tâches. Les SLM sont appréciés pour leur efficacité et leur accessibilité, permettant une intégration plus large dans les produits et services[4].

Les avantages des SLM incluent leur coût réduit et leur empreinte carbone plus faible, car ils nécessitent moins d'énergie pour fonctionner. De plus, ils peuvent être mis à jour plus fréquemment et personnalisés pour des tâches spécifiques, offrant ainsi une flexibilité accrue[5].

Limitations des SLM modifier

Malgré leurs avantages, les SLM ont des limitations. Leur compréhension du langage peut être moins nuancée que celle des grands modèles, et ils peuvent avoir du mal avec des tâches complexes ou des nuances subtiles du langage. De plus, la qualité des données utilisées pour leur entraînement est cruciale pour leur performance[6].

Exemples de petits modèles de langage modifier

Plusieurs SLM sont dérivés du grand modèle de langage BERT, fondé sur la technologie des transformeurs :

  • BERT Mini[7] est une version plus petite de BERT, conçue pour des appareils avec des ressources limitées.
  • DistilBERT[8] est une version condensée qui conserve une grande partie de la performance tout en étant plus léger.
  • TinyBERT[9] est une version encore plus réduite de BERT, optimisée pour les performances sur des appareils à faible capacité.
  • MobileBERT[10] est un modèle spécialement conçu pour les applications mobiles, offrant un bon équilibre entre performance et efficacité.
  • ALBERT[11] est une version allégée de BERT qui utilise des techniques de partage de paramètres pour réduire la taille du modèle.

D'autres petits modèles de langage n'utlisent pas la technologie des transformeurs :

  • LSTM[12] (Long Short-Term Memory) est un type de réseau de neurones récurrents qui peut apprendre des dépendances à long terme dans les séquences de texte. LSTM est utilisé pour interprêter des séquences de données temporelles[13].
  • CNN[14] (Convolutional Neural Network) est un type de réseau de neurones qui utilise des opérations de convolution pour extraire des caractéristiques locales et hiérarchiques du texte[15].
  • ELMo (Embeddings from Language Models)[16] est un modèle de langage qui apprend des représentations contextuelles des mots à partir de deux réseaux de neurones récurrents bidirectionnels.

Références modifier

  1. (en-US) Tanya Malhotra, « Everything You Need to Know about Small Language Models (SLM) and its Applications », sur MarkTechPost, (consulté le )
  2. (en) Margaret Rouse, « Small Language Model (SLM) », sur Techopedia, (consulté le )
  3. (en-US) Miami Cloud, « How are Small Language Models used in Natural Language Processing », sur Miami Cloud, (consulté le )
  4. (en) Sandi Besen, « Rise of the SLM (Small Language Model) », sur Medium, (consulté le )
  5. (en) « Memorize Less; Retrieve More - How small language models can perform specialized tasks. », sur The Batch - DeepLearning.AI, (consulté le )
  6. (en) Dr. Assad Abbas, « Small But Mighty: Small Language Models Breakthroughs in the Era of Dominant Large Language Models », sur unite.ai, (consulté le )
  7. (en) Hugging Face, « BERT mini », sur huggingface.co (consulté le )
  8. (en) Hugging Face, « DistilBERT », sur huggingface.co (consulté le )
  9. (en) Hugging Face, « TinyBERT », sur huggingface.co (consulté le )
  10. (en) Hugging Face, « MobileBERT », sur huggingface.co (consulté le )
  11. (en) Hugging Face, « ALBERT », sur huggingface.co (consulté le )
  12. (en) Hugging face, « LSTM », sur huggingface.co, (consulté le )
  13. Youcef Messaoud, « LSTM, Intelligence artificielle sur des données chronologiques », sur Smile Innovation, (consulté le )
  14. (en) Hugging face, « CNN », sur huggingface.co, (consulté le )
  15. (en) SLM Lab, « CNN - Convolutional Neural Network », sur SLM Lab (consulté le )
  16. (en) Peters et al., « ELMo Explained », sur paperswithcode.com (consulté le )