Apprentissage auto-supervisé

L'apprentissage auto-supervisé (en anglais : self-supervised learning, SSL) est une méthode d'apprentissage automatique où le modèle apprend à partir d'échantillons de données non annotées. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. L'apprentissage auto-supervisé est typiquement utilisé sur des architectures à base de réseau de neurones artificiels[1]. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau[2],[3]. Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé[4],[5],[6]. L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale[7]. Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets[8].

Apprentissage auto-supervisé
Type
Apprentissage automatique, weakly supervised learning (en)Voir et modifier les données sur Wikidata
Nom court
(en) SSLVoir et modifier les données sur Wikidata

Les types

modifier

Pour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas[9].

SSL contrasté

modifier

Le SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs[9].

SSL non contrasté (NCSSL)

modifier

Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible[9].

Comparaison avec d'autres formes d'apprentissage automatique

modifier

Le SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. Cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données[10]. Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation[8].

Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes[10].

L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage[3].

Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente[11].

Exemples

modifier

L'apprentissage auto-supervisé est particulièrement adapté à la reconnaissance vocale. Par exemple, Facebook a développé wav2vec, un algorithme auto-supervisé, pour effectuer la reconnaissance vocale à l'aide de deux réseaux de neurones à convolution profonde qui s'appuient l'un sur l'autre[7].

Le modèle BERT ( Bidirectional Encoder Representations from Transformers ) de Google est utilisé pour mieux comprendre le contexte des requêtes de recherche[12].

Le GPT-3 d'OpenAI est un modèle de langage autorégressif qui peut être utilisé dans le traitement du langage. Il peut être utilisé pour traduire des textes ou répondre à des questions, entre autres[13].

Bootstrap Your Own Latent est un NCSSL qui a produit d'excellents résultats sur ImageNet et sur les benchmarks de transfert et semi-supervisés[14].

DirectPred est un NCSSL qui définit directement les poids des prédicteurs au lieu de les apprendre via la mise à jour du gradient[9] .

Références

modifier
  1. (en) Abshire, « Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? », Medium, (consulté le )
  2. Doersch et Zisserman, « Multi-task Self-Supervised Visual Learning », 2017 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ , p. 2070–2079 (ISBN 978-1-5386-1032-9, DOI 10.1109/iccv.2017.226, arXiv 1708.07860, S2CID 473729, lire en ligne)
  3. a et b Beyer, Zhai, Oliver et Kolesnikov, « S4L: Self-Supervised Semi-Supervised Learning », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ , p. 1476–1485 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00156, arXiv 1905.03670, S2CID 167209887, lire en ligne)
  4. Doersch, Gupta et Efros, « Unsupervised Visual Representation Learning by Context Prediction », 2015 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ , p. 1422–1430 (ISBN 978-1-4673-8391-2, DOI 10.1109/iccv.2015.167, arXiv 1505.05192, S2CID 9062671, lire en ligne)
  5. Zheng, Wang, Wang et Liu, « Fast and robust segmentation of white blood cell images by self-supervised learning », Micron, vol. 107,‎ , p. 55–71 (ISSN 0968-4328, PMID 29425969, DOI 10.1016/j.micron.2018.01.010, lire en ligne)
  6. Gidaris, Bursuc, Komodakis et Perez, « Boosting Few-Shot Visual Learning With Self-Supervision », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ , p. 8058–8067 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00815, arXiv 1906.05186, S2CID 186206588, lire en ligne)
  7. a et b (en) « Wav2vec: State-of-the-art speech recognition through self-supervision », ai.facebook.com (consulté le )
  8. a et b (en) Bouchard, « What is Self-Supervised Learning? | Will machines ever be able to learn like humans? », Medium, (consulté le )
  9. a b c et d (en) « Demystifying a key self-supervised learning technique: Non-contrastive learning », ai.facebook.com (consulté le )
  10. a et b R. et L., « Problem Based Learning a Shift from Teaching Paradigm to the Learning Paradigm », Indian Journal of Dental Education, vol. 10, no 1,‎ , p. 47–51 (ISSN 0974-6099, DOI 10.21088/ijde.0974.6099.10117.6, lire en ligne)
  11. Littwin et Wolf, « The Multiverse Loss for Robust Transfer Learning », 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE,‎ , p. 3957–3966 (ISBN 978-1-4673-8851-1, DOI 10.1109/cvpr.2016.429, arXiv 1511.09033, S2CID 6517610, lire en ligne)
  12. (en) « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », Google AI Blog (consulté le )
  13. Wilcox, Qian, Futrell et Kohita, « Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models », Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Stroudsburg, PA, USA, Association for Computational Linguistics,‎ , p. 4640–4652 (DOI 10.18653/v1/2020.emnlp-main.375, arXiv 2010.05725, S2CID 222291675, lire en ligne)
  14. (en) Auteur inconnu, « Bootstrap your own latent: A new approach to self-supervised Learning », .

Liens externes

modifier