Analyse factorielle de données mixtes

Analyse factorielle de données mixtes

L’Analyse factorielle de données mixtes (AFDM) est la méthode factorielle dédiée aux tableaux dans lesquels un ensemble d’individus est décrit par un ensemble de variables quantitatives et qualitatives.

Le terme « mixte » renvoie à la présence simultanée, en tant qu’éléments actifs, de variables quantitatives et qualitatives. De façon simplifiée, on peut dire que l’AFDM fonctionne comme une Analyse en composantes principales (ACP) pour les variables quantitatives et comme une Analyse des correspondances multiples (ACM) pour les variables qualitatives.

Domaine d'application

modifier

Lorsque l’on dispose des deux types de variables mais que les variables actives sont homogènes, on recourt à l’ACP ou l’ACM.

En effet, il est facile d’introduire des variables quantitatives supplémentaires en ACM[1] ; pour cela on calcule les coefficients de corrélation entre les variables et les facteurs sur les individus (un facteur sur les individus est le vecteur des coordonnées des individus sur un axe factoriel) ; la représentation obtenue est un cercle des corrélations (comme en ACP).

De même, il est facile d’introduire des variables qualitatives supplémentaires en ACP[2]. Pour cela, on représente chaque modalité par le centre de gravité des individus qui la possèdent (comme en ACM).

La présence de variables supplémentaires d’un type différent de celui des variables actives ne pose pas de problème particulier.

Lorsque les variables actives sont mixtes, une pratique excellente consiste à discrétiser les variables quantitatives (exemple classiquement, dans les enquêtes, on transforme l’âge en appartenance à une tranche d’âge). On dispose alors de données homogènes que l’on peut traiter par ACM.

Cette pratique atteint ses limites[3] :

  • lorsqu’il y a peu d’individus (moins d’une centaine pour fixer les idées) auquel cas l’ACM est instable;
  • lorsqu’il y a peu de variables qualitatives par rapport aux variables quantitatives (on peut hésiter à discrétiser vingt variables quantitatives pour pouvoir prendre en compte une seule variable qualitative).

Critère

modifier

Les données comportent variables quantitatives et variables qualitatives .

Soit une variable quantitative . On note :

  • le coefficient de corrélation entre les variables et  ;
  • le carré du rapport de corrélation entre les variables et .

Dans l’ACP de , on cherche la fonction sur (une fonction sur attribue une valeur à chaque individu ; c'est le cas des variables initiales et des composantes principales) la plus corrélée à l’ensemble des variables en sens suivant :

  maximum.

Dans l’ACM de , on cherche la fonction sur la plus liée à l’ensemble des variables au sens suivant :

 maximum.

Dans l’AFDM de , on cherche la fonction sur la plus liée à l’ensemble des variables au sens suivant :

 maximum.

Cette fonction fait jouer le même rôle aux deux types de variables. La contribution de chaque variable à ce critère est bornée par 1.

Représentations graphiques[4]

modifier

La représentation des individus s’effectue directement à partir des facteurs sur .

La représentation des variables quantitatives est construite comme en ACP (cercle des corrélations).

La représentation des modalités des variables qualitatives s’effectue comme en ACM : une modalité est au barycentre des individus qui la possèdent. Noter que l’on prend l’exact barycentre et non pas, comme usuellement en ACM, le barycentre à un coefficient près axe par axe (ce coefficient, égal en ACM à l’inverse de la racine carré de la valeur propre, ne serait pas adéquat en AFDM).

La représentation des variables qualitatives est celle du « carré des liaisons » : la coordonnée de la variable le long de l’axe de rang est égale au carré du rapport de corrélation entre la variable et le facteur de rang . On la complète par une représentation des variables quantitatives via le carré de leur coefficient de corrélations avec les facteurs.

Aides à l'interprétation

modifier

Les indicateurs de liaison entre les variables initiales sont rassemblés dans une matrice dite « matrice des liaisons » qui comporte à l’intersection de la ligne et de la colonne  :

  • si et sont quantitatives, le carré du coefficient de corrélation entre et  ;
  • si est quantitative et qualitative, le carré du rapport de corrélation entre et  ;
  • si et sont qualitatives, l’indicateur entre et .

Exemple test[5]

modifier

Un jeu de données de petite taille (Tableau 1) permet d’illustrer le fonctionnement et les sorties de l’AFDM. Six individus sont décrits par trois variables quantitatives et trois variables qualitatives. Les données ont été analysées à l’aide de la fonction FAMD du package R FactoMineR.

Tableau 1. Données (exemple test).
2 4.5 4 -A -B -C
5 4.5 4 -C -B -C
3 1 2 -B -B -B
4 1 2 -B -B -B
1 1 1 -A -A -A
6 1 2 -C -A -A
Tableau 2. Exemple test. Matrice des liaisons.
1 0.00 0.05 0.91 0.00 0.00
0.00 1 0.90 0.25 0.25 1.00
0.05 0.90 1 0.13 0.40 0.93
0.91 0.25 0.13 2 0.25 1.00
0.00 0.25 0.40 0.25 1 1.00
0.00 1.00 0.93 1.00 1.00 2

L'indicateur est égal à (variables quantitatives), (variables qualitatives) ou (une variable de chaque type).

La matrice des liaisons indique un enchevêtrement des liaisons entre les variables des deux types. La représentation des individus (figure 1) montre clairement trois groupes d’individus. Le premier axe oppose les individus 1 et 2 à tous les autres. Le deuxième axe oppose les individus 3 et 4 aux individus 5 et 6.

Figure1. AFDM. Exemple test. Représentation des individus.
Figure2. AFDM. Exemple test. Carré des liaisons.
Figure3. AFDM. Exemple test. Cercle des corrélations.
Figure4. AFDM. Exemple test. Représentation des modalités des variables qualitatives.

La représentation des variables (carré des liaisons, figure 2) montre que le premier axe () est étroitement lié aux variables , et . Le cercle des corrélations (figure 3) précise le sens de la liaison entre , et  ; la représentation des modalités (figure 4) précise la nature de la liaison entre et . Finalement les individus 1 et 2, individualisés par le premier axe, sont caractérisés par de fortes valeurs de et ainsi que par la modalité de . Cet exemple illustre la façon dont l’AFDM analyse simultanément des variables quantitatives. Ainsi, elle met en évidence, dans cet exemple, une première dimension s’appuyant sur les deux types de variables.


Historique

modifier

L’AFDM a pour origine des travaux dus à Brigitte Escofier[6] (en 1979) et Gilbert Saporta[7] (en 1990). Ces travaux ont été repris par Jérôme Pagès en 2004[3] puis en 2013[8].

Notes et références

modifier

Bibliographie

modifier
  • Brigitte Escofier, « Traitement simultané de variables quantitatives et qualitatives en analyse factorielle », Les cahiers de l’analyse des données, vol. 4, no 2,‎ , p. 137–146 (lire en ligne [PDF])
  • Jérôme Pagès, « Analyse factorielle de données mixtes », Revue de Statistique appliquée, vol. 52, no 4,‎ , p. 93-111 (lire en ligne [PDF])
  • Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9)
  • Gilbert Saporta, « Simultaneous analysis of qualitative and quantitative data », Atti della XXXV riunione scientifica ; società italiana di statistica,‎ , p. 63-72 (lire en ligne [PDF])

Lien externe

modifier