Utilisateur:Hoangvinhtruong/Brouillon
- → N'hésitez pas à publier sur le brouillon un texte inachevé et à le modifier autant que vous le souhaitez.
- → Pour enregistrer vos modifications au brouillon, il est nécessaire de cliquer sur le bouton bleu : « Publier les modifications ». Il n'y a pas d'enregistrement automatique.
Si votre but est de publier un nouvel article, votre brouillon doit respecter les points suivants :
- Respectez le droit d'auteur en créant un texte spécialement pour Wikipédia en français (pas de copier-coller venu d'ailleurs).
- Indiquez les éléments démontrant la notoriété du sujet (aide).
- Liez chaque fait présenté à une source de qualité (quelles sources – comment les insérer).
- Utilisez un ton neutre, qui ne soit ni orienté ni publicitaire (aide).
- Veillez également à structurer votre article, de manière à ce qu'il soit conforme aux autres pages de l'encyclopédie (structurer – mettre en page).
- → Si ces points sont respectés, pour transformer votre brouillon en article, utilisez le bouton « publier le brouillon » en haut à droite. Votre brouillon sera alors transféré dans l'espace encyclopédique.
Bonjour tout le monde,
Voici un brouillon que je viens de faire sur la sélection d'attributs. J'espère que vous pourriez me donner des commentaires surtout des fautes d'orthographe car je ne suis pas français. Merci d'avance.
######################################################################!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!#######################################
Les données utilisées par les application réelles(images, signaux...) sont souvent caractérisées par un grand nombre d'attributs. Considérer un nombre élevé d'attributs d'une part augmente le risque de prendre en considération des attributs redondants ou corrélés ce qui rend ces algorithmes plus complexes ou parfois moins performants. Il est alors nécessaire de procéder à une étape de réduction de la dimension de l'espace des attributs[1].
Sélection d'attributs
modifierDans l'apprentissage automatique, la sélection d'attributs, aussi connue comme sélection des variables ou sélection de sous-ensemble de variable, est le processus de sélection d'un sous-ensemble de caractéristiques pertinentes (variables de prédicateurs), pour utilisation dans la construction du modèle. Les techniques de sélection d'attributs sont utilisés pour trois raisons::
Les techniques de sélection d'attributs doivent être distingués de l'extraction de caractéristiques. Cette dernière crée de nouveaux attributs, alors que la sélection d'attributs retourne un sous-ensemble de caractéristiques. Les techniques de sélection d'attributs sont souvent utilisés dans des domaines où il existe de nombreux attributs et relativement peu d'échantillons (ou points de données). Archétypales cas pour l'application de la sélection d'attributs comprennent l'analyse des textes écrits et des puces à ADN de données, où il y a des milliers d’attributs, et quelques dizaines à des centaines d'échantillons.
Présentation
modifierUn algorithme de sélection d'attributs peut être considéré comme la combinaison d'une technique de recherche pour proposer de nouveaux sous-ensembles d'attributs , avec une mesure qui marque les différents sous-ensembles d'attributs de l'évaluation. L'algorithme le plus simple consiste à tester chaque sous-ensemble possible de caractéristiques et trouver celui qui minimise le taux d'erreur. Ceci est une recherche exhaustive de l'espace, et le calcul est intraitable pour tous, mais le plus petit des ensembles d'attributs. Le choix de l'évaluation métrique influence fortement l'algorithme, et ce sont ces mesures d'évaluation qui distinguent entre les trois principales catégories de sélection : des méthode "Wrapper",des méthodes de filtrage et des méthodes embarquées .[4]
La méthode "Wrapper" utilise un modèle prédictif pour marquer un sous-ensemble d'attributs. Chaque nouveau sous-ensemble est utilisé pour former un modèle, qui est testé par une méthode de validation croisée (holdout method) sur un ensemble. Compter le nombre d'erreurs commises sur cet ensemble par la méthode validation croisée (la methode "holdout" ) (le taux du modèle d'erreur) donne le score pour ce sous-ensemble. .
Les méthodes de filtrage utilisent une mesure de substitution à la place du taux d'erreur pour marquer un sous-ensemble d'attributs. Cette mesure est choisie pour être rapidement calculée, tout en capturant l'utilité de l'ensemble des attributs. Des mesures communes comprennent : l'information mutuelle[4], l'information mutuelle ponctuelle[5], coefficient de Pearson corrélation produit-moment.
Les méthodes embarquées sont un ensemble de groupe de techniques qui effectuent la sélection d'attributs dans le cadre du processus de construction du modèle. L'exemple de cette approche est la méthode LASSO pour construire un modèle linéaire, ce qui pénalise les coefficients de régression avec une pénalité L1[6], rétrécissement beaucoup d'entre eux à zéro. Toutes les entités qui ont des coefficients de régression non-zéro sont «choisies» par l'algorithme LASSO..
Sélection de sous-ensemble
modifierLa sélection de sous-ensembles évalue un sous-ensemble d'attributs comme un groupe d'aptitude [1].
Les algorithmes de sélection de sous-ensembles peuvent être divisés en "Wrapper", filtrage et embarqué. Les méthodes "wrapper" utilisent un algorithme de recherche pour recherche à travers l'espace des attributs possibles et évaluer chaque sous-ensemble en exécutant un modèle sur le sous-ensemble. Les méthodes embarquées peuvent être coûteuses en calcul, cependant il y a un risque de ne plus être approprié pour le modèle. La méthode de filtrage est semblable à emballages dans l'approche de recherche, mais au lieu d'évaluer contre un modèle, un filtre simple est évalué. Techniques intégrés sont noyées dans et spécifique à un modèle.
De nombreuses approches de recherche populaires utilisent une méthode gloutonne telle que "hill climbing", qui évalue de manière itérative un sous-ensemble de caractéristiques candidates, puis modifie le sous-ensemble et évalue si le nouveau sous-ensemble est une amélioration par rapport à l'ancien. .
Recherche approches incluent:
- Exhaustive
- Recherche best-first
- Recuit simulé
- Algorithme génétique
- Algorithme glouton sélection de l'avant
Références
modifier- « Thèses > Kalakech Mariam », sur ori.univ-lille1.fr (consulté le )
- Gareth James, Daniela Witten, Trevor Hastie et Robert Tibshirani, An Introduction to Statistical Learning - Springer (DOI 10.1007/978-1-4614-7138-7, lire en ligne)
- (en) M. L. Bermingham, R. Pong-Wong, A. Spiliopoulou et C. Hayward, « Application of high-dimensional feature selection: evaluation for genomic prediction in man », Scientific Reports, vol. 5, (PMID 25988841, PMCID 4437376, DOI 10.1038/srep10312, lire en ligne, consulté le )
- Isabelle Guyon et André Elisseeff, « An Introduction to Variable and Feature Selection », J. Mach. Learn. Res., vol. 3, , p. 1157–1182 (ISSN 1532-4435, lire en ligne, consulté le )
- Yiming Yang et Jan O. Pedersen, « A Comparative Study on Feature Selection in Text Categorization », Proceedings of the Fourteenth International Conference on Machine Learning, Morgan Kaufmann Publishers Inc., iCML '97, , p. 412–420 (ISBN 1558604863, lire en ligne, consulté le )
- Francis R. Bach, « Bolasso: Model Consistent Lasso Estimation Through the Bootstrap », Proceedings of the 25th International Conference on Machine Learning, ACM, iCML '08, , p. 33–40 (ISBN 9781605582054, DOI 10.1145/1390156.1390161, lire en ligne, consulté le )