Petit modèle de langage

Dans le domaine de l'intelligence artificielle générative, un petit modèle de langage (SLM ou small langage model) est un système d'intelligence artificielle conçu pour comprendre et générer du langage humain à une échelle réduite par rapport aux modèles de langage plus vastes^[1].

Définition modifier

Un petit modèle de langage est un système informatique qui utilise des techniques d'apprentissage automatique pour traiter le langage naturel mais, contrairement aux grands modèles, les SLM nécessitent moins de données et de puissance de calcul pour fonctionner. Cette caractéristique les rend plus pratiques pour une utilisation dans des appareils avec des ressources limitées ou pour des applications nécessitant une réponse rapide^[2]. Il n'existe pas de limite précise du nombre de paramètres permettant de distinguer entre les petits et les grands modèles de langage.

Applications des SLM modifier

Les petits modèles de langage sont utilisés pour diverses fonctions, telles que la traduction automatique, la génération de texte, la complétion et la correction d'écrits, la reconnaissance vocale et la transcription, et les assistants virtuels^[3]. Ces usages alimentent dans une grande variété d'applications, allant des assistants vocaux aux outils d'aide à la rédaction. Ils sont particulièrement utiles dans les environnements à ressources limitées, comme les appareils mobiles ou les systèmes embarqués.

Avantages des SLM modifier

La taille plus petite des SLM les rend plus rapides et moins coûteux à entraîner, tout en étant suffisamment performants pour de nombreuses tâches. Les SLM sont appréciés pour leur efficacité et leur accessibilité, permettant une intégration plus large dans les produits et services^[4].

Les avantages des SLM incluent leur coût réduit et leur empreinte carbone plus faible, car ils nécessitent moins d'énergie pour fonctionner. De plus, ils peuvent être mis à jour plus fréquemment et personnalisés pour des tâches spécifiques, offrant ainsi une flexibilité accrue^[5].

Limitations des SLM modifier

Malgré leurs avantages, les SLM ont des limitations. Leur compréhension du langage peut être moins nuancée que celle des grands modèles, et ils peuvent avoir du mal avec des tâches complexes ou des nuances subtiles du langage. De plus, la qualité des données utilisées pour leur entraînement est cruciale pour leur performance^[6].

Exemples de petits modèles de langage modifier

Plusieurs SLM sont dérivés du grand modèle de langage BERT, fondé sur la technologie des transformeurs :

BERT Mini^[7] est une version plus petite de BERT, conçue pour des appareils avec des ressources limitées.
DistilBERT^[8] est une version condensée qui conserve une grande partie de la performance tout en étant plus léger.
TinyBERT^[9] est une version encore plus réduite de BERT, optimisée pour les performances sur des appareils à faible capacité.
MobileBERT^[10] est un modèle spécialement conçu pour les applications mobiles, offrant un bon équilibre entre performance et efficacité.
ALBERT^[11] est une version allégée de BERT qui utilise des techniques de partage de paramètres pour réduire la taille du modèle.

D'autres petits modèles de langage n'utlisent pas la technologie des transformeurs :

LSTM^[12] (Long Short-Term Memory) est un type de réseau de neurones récurrents qui peut apprendre des dépendances à long terme dans les séquences de texte. LSTM est utilisé pour interprêter des séquences de données temporelles^[13].
CNN^[14] (Convolutional Neural Network) est un type de réseau de neurones qui utilise des opérations de convolution pour extraire des caractéristiques locales et hiérarchiques du texte^[15].
ELMo (Embeddings from Language Models)^[16] est un modèle de langage qui apprend des représentations contextuelles des mots à partir de deux réseaux de neurones récurrents bidirectionnels.

Références modifier

↑ (en-US) Tanya Malhotra, « Everything You Need to Know about Small Language Models (SLM) and its Applications », sur MarkTechPost, 5 décembre 2023 (consulté le 7 décembre 2023)
↑ (en) Margaret Rouse, « Small Language Model (SLM) », sur Techopedia, 24 novembre 2023 (consulté le 7 décembre 2023)
↑ (en-US) Miami Cloud, « How are Small Language Models used in Natural Language Processing », sur Miami Cloud, 17 août 2023 (consulté le 7 décembre 2023)
↑ (en) Sandi Besen, « Rise of the SLM (Small Language Model) », sur Medium, 5 décembre 2023 (consulté le 7 décembre 2023)
↑ (en) « Memorize Less; Retrieve More - How small language models can perform specialized tasks. », sur The Batch - DeepLearning.AI, 14 décembre 2022 (consulté le 7 décembre 2023)
↑ (en) Dr. Assad Abbas, « Small But Mighty: Small Language Models Breakthroughs in the Era of Dominant Large Language Models », sur unite.ai, 5 décembre 2023 (consulté le 7 décembre 2023)
↑ (en) Hugging Face, « BERT mini », sur huggingface.co (consulté le 12 décembre 2023)
↑ (en) Hugging Face, « DistilBERT », sur huggingface.co (consulté le 12 décembre 2023)
↑ (en) Hugging Face, « TinyBERT », sur huggingface.co (consulté le 12 décembre 2023)
↑ (en) Hugging Face, « MobileBERT », sur huggingface.co (consulté le 12 décembre 2023)
↑ (en) Hugging Face, « ALBERT », sur huggingface.co (consulté le 12 décembre 2023)
↑ (en) Hugging face, « LSTM », sur huggingface.co, 6 décembre 2021 (consulté le 12 décembre 2023)
↑ Youcef Messaoud, « LSTM, Intelligence artificielle sur des données chronologiques », sur Smile Innovation, 27 novembre 2018 (consulté le 12 décembre 2023)
↑ (en) Hugging face, « CNN », sur huggingface.co, 6 décembre 2021 (consulté le 12 décembre 2023)
↑ (en) SLM Lab, « CNN - Convolutional Neural Network », sur SLM Lab (consulté le 12 décembre 2023)
↑ (en) Peters et al., « ELMo Explained », sur paperswithcode.com (consulté le 12 décembre 2023)

Portail de l'informatique théorique

[1] (en-US) Tanya Malhotra, « Everything You Need to Know about Small Language Models (SLM) and its Applications », sur MarkTechPost, 5 décembre 2023 (consulté le 7 décembre 2023)

[2] (en) Margaret Rouse, « Small Language Model (SLM) », sur Techopedia, 24 novembre 2023 (consulté le 7 décembre 2023)

[3] (en-US) Miami Cloud, « How are Small Language Models used in Natural Language Processing », sur Miami Cloud, 17 août 2023 (consulté le 7 décembre 2023)

[4] (en) Sandi Besen, « Rise of the SLM (Small Language Model) », sur Medium, 5 décembre 2023 (consulté le 7 décembre 2023)

[5] (en) « Memorize Less; Retrieve More - How small language models can perform specialized tasks. », sur The Batch - DeepLearning.AI, 14 décembre 2022 (consulté le 7 décembre 2023)

[6] (en) Dr. Assad Abbas, « Small But Mighty: Small Language Models Breakthroughs in the Era of Dominant Large Language Models », sur unite.ai, 5 décembre 2023 (consulté le 7 décembre 2023)

[7] (en) Hugging Face, « BERT mini », sur huggingface.co (consulté le 12 décembre 2023)

[8] (en) Hugging Face, « DistilBERT », sur huggingface.co (consulté le 12 décembre 2023)

[9] (en) Hugging Face, « TinyBERT », sur huggingface.co (consulté le 12 décembre 2023)

[10] (en) Hugging Face, « MobileBERT », sur huggingface.co (consulté le 12 décembre 2023)

[11] (en) Hugging Face, « ALBERT », sur huggingface.co (consulté le 12 décembre 2023)

[12] (en) Hugging face, « LSTM », sur huggingface.co, 6 décembre 2021 (consulté le 12 décembre 2023)

[13] Youcef Messaoud, « LSTM, Intelligence artificielle sur des données chronologiques », sur Smile Innovation, 27 novembre 2018 (consulté le 12 décembre 2023)

[14] (en) Hugging face, « CNN », sur huggingface.co, 6 décembre 2021 (consulté le 12 décembre 2023)

[15] (en) SLM Lab, « CNN - Convolutional Neural Network », sur SLM Lab (consulté le 12 décembre 2023)

[16] (en) Peters et al., « ELMo Explained », sur paperswithcode.com (consulté le 12 décembre 2023)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]