Variable quantitative

En statistique, une variable quantitative, est un type de variable qui mesure une propriété métrique (i.e. la distance entre des éléments) d'un individu statistique[a], elle s'exprime à l’aide de nombres, et ses diverses valeurs peuvent être numériquement comparées (additionnées, multipliées, divisées, etc.). On parle aussi de variable numérique, de variable d'intervalle ou de variable de ratio (dit aussi de rapport).

Généralités sur les variables

modifier

Une variable est une propriété de quelque chose dont la valeur diffère d’un cas à l’autre (i.e. une variable est quelque chose qui varie) : ceci implique que ce quelque chose possède au moins deux valeurs différentes[1]. L'âge ou la taille sont des variables (il existe plusieurs valeurs que peuvent prendre l'âge ou la taille). Le contraire d’une variable est une constante[1].

Distinction variable quantitative et qualitative

modifier

La nature de la variable dépend de l'analyse : ainsi l'âge peut être une variable qualitative (jeune, vieux) ou quantitative (10 ans, 20 ans, 30 ans) ; la taille peut être une variable qualitative (petit, moyen, grand) ou quantitative (1m50, 1m70, 1m90)[2],[3]. Aussi, il est envisageable de passer d'un type de variable à une autre[4],[5]. Autre exemple : le revenu, peut être mesuré soit en tant que variable qualitative ordinale (faible, moyen, élevé), soit en tant que variable quantitative (nombre de dollars par année)[3].

On distingue généralement les variables nominales (ou catégorielle), les variables ordinales, les variables intervalles et les variables de rapports (ou de ratio)[6],[7],[8],[9].

Les variables dites quantitatives correspondent aux variables d'intervalle ou de rapports (dit aussi ratio) et s'exprime en valeurs numériques (exemple : 1, 2, 3, 4...) tandis que les variables dites qualitative correspondent aux variables nominales (exemple : garçon, fille ; a voté, n'a pas voté ; physicien, sociologue, biologiste, historien, chimiste, archéologue...) ou ordinale (exemple : pas du tout d’accord, plutôt pas d’accord, plutôt d’accord, tout à fait d’accord ; froid, tiède, chaud, brulant ; inférieur ou supérieure) et indiquent une qualité[10],[11]. Les variables ordinales peuvent être de type quantitative ou qualitative, bien la distinction est parfois flou[10].

Les modalités des variables qualitatives (nominales et ordinales) sont parfois « numérisées » (i.e. recodage numérique) : par exemple « 0 » homme et « 1 » pour femme ; « 1 » pour classe sociale défavorisée, « 2 » pour classe sociale moyenne, « 3 » pour classe sociale favorisée, ...[10].

De plus, il est possible d’opérer des transformations statistique sur les variables, comme par exemple construire un score factoriel[4]. Comme le précise Pascal Bressoux, professeur en sciences de l'éducation : « Cela procure une certaine flexibilité dans la façon dont on analyse les données. En revanche, il faut reconnaître que cette flexibilité a aussi des inconvénients, en particulier le fait que les résultats, et par conséquent les interprétations qu’on en tire, peuvent être affectés par le type d’échelle de mesure qui a été adopté »[4].

Variable numérique, d'intervalle et de rapport

modifier

Une variable quantitative - on parle aussi de variable numérique[12], de variable d'intervalle[13] ou de variable de ratio[3] - inclut des mesures qui impliquent une valeur numérique. La où une variable nominale mesure une relation d’égalité/différence[13], et où une variable ordinale mesure une relation d'ordre[13], une variable numérique mesure un rapports entre les valeurs[13]. Les différences entre ces valeurs déterminent des distances métriques qui permettre de comparer les individus statistique entre eux : il s'agit d'une relation métrique (i.e. d'une distance) entre les individus[13]. Elle s'exprime ainsi à l’aide de nombres, et ses diverses valeurs peuvent être numériquement comparées (additionnées, soustraites, multipliées, divisées, etc.)[14].

Une variable d’intervalle a non seulement des valeurs qui peuvent être ordonnées (elle possède donc les propriétés d'une variable ordinale), mais elle se mesure également via une unité de mesure (comme l’année, le kilogramme ou le centimètre), qui permet de faire des opérations arithmétiques[15]. Les variables quantitatives peuvent également exprimer des parts, des taux, des probabilités[14]. Dans ce cas, on parle de données agrégées dans la mesure où pour les obtenir, il est nécessaire d’agréger des données individuelles[14]. Les variables mesurées par dénombrement sont presque toujours des variables quantitative[16].

Une variable de rapport à les propriétés d'une variable d’intervalle, mais elle permet de comparer des rapports de valeurs[17],[18]. Ce type de variable assure qu’une différence donnée (une distance numérique) aura la même signification théorique quelles que soient les valeurs qui ont produit la différence[13].

Ainsi, s'il est justifié de considérer qu'un individu de 120cm est deux fois plus grand qu'un individu de 60cm, en revanche il n'est pas justifié de considérer qu’un individu ayant un QI de 120 est deux fois plus intelligent qu’un autre dont le QI est de 60[13]. De la même manière, on peut considérer qu'un individu de 20 ans est deux fois plus âgé qu'un individu de 10 ans et deux fois moins âgé qu'un individu de 40 ans, mais pas qu'un individu qu'il est deux fois plus mariée qu'un autre[18].

Variable discrète et continue

modifier

Une variable numérique peut être de type discrète ou continue[10].

  • Dans le cas discret, les valeurs de la variable est dénombrable. C'est-à-dire, si entre deux valeurs potentiellement observables, il existe une valeur qui n’est pas potentiellement observable[10]. Par exemple, le nombre d’enfants dans une famille : soit 0, soit 1, soit 2, soit 3, etc. Mais il n'existe pas de valeur intermédiaire : il n'y a aucun cas où il y peut y avoir 0,15 enfants dans une famille donnée.
  • Dans le cas continu, l’ensemble des valeurs de la variable n’est pas dénombrable. La variable peut prendre des valeurs entières, mais aussi n’importe quelle valeur intermédiaire[10]. Autrement dit, une variable sera dite continue si, entre deux valeurs potentiellement observables, il existe toujours une autre valeur potentiellement observable[10]. Par exemple, il est toujours potentiellement possible d'observer des valeurs intermédiaire en ce qui concerne des durées ou des longueurs. En théorie, les variables continues ont une infinité de décimales[10].

Néanmoins, les instruments de mesure fournissent tous des observations discontinues (toute mesure est un encadrement)[10]. Les valeurs des variables sont donc regroupées en classes dont l’amplitude dépend de la sensibilité et de la précision de l’instrument de mesure utilisé[10]. Par exemple, s'il est théoriquement possible de mesurer l'âge d'une personne de manière très précise (en nanoseconde par exemple), en pratique on mesure l'âge d'une personne en années (soit en mois ou semaines pour les nourrissons).

Exemple de l'âge

modifier

Une variable continue peut en théorie prendre n’importe quelle valeur à l’intérieur de l’étendue de ses valeurs possibles[19]. Ainsi, dans sa vie, une personne passe, entre sa naissance et sa mort, par tous les âges possible (pourvu que l’âge soit mesuré en unités assez petites pour que nous puissions le constater)[19]. En théorie, on pourrait décrire l’âge d’une personne ainsi : 30 ans, 7 mois, 3 jours, 8 heures, 54 minutes, 36 secondes… [19]. Mais, avec cette précision, aussitôt l’âge calculé, le résultat devient incorrect[19]. Ainsi, l'âge, mesurée en année, est une variable discrète.

On peut également faire des classes d'âges d'intervalle de 10 ans ([0-10 ans[ ; [10-20 ans[ ; [20-30 ans[ ; etc.) ou des classes d'âges exprimé de manière catégorielle (nourrissons, enfants, jeunes, vieux, etc.). Les variables avec des modalités qui correspondent à des classes sont considérées comme qualitative[20],[21].

Une variable discrète, peut prendre seulement certaines des valeurs comprises dans son étendue. Le nombre d'enfants d’une famille est un exemple[19]. Les variables du niveau nominale sont toujours discrètes[19]. Les variables ordinales ou d’intervalles peuvent être soit discrètes soit continues[19].

Exploitation des variables numériques

modifier

Les types de traitement statistique de variables numérique sont nombreux : analyse univariée, analyse bivariée, analyse multivariée, indicateur de position, indicateur de dispersion, etc.

Recodage

modifier

Le recodage d'une variable consiste à transformer les modalités de réponse de la variable. Concernant une variable qualitative, il est possible de faire un recodage qualitatif ou un recodage quantitatif[4],[5].

Exemple du diplôme

modifier

Prenons comme exemple la variable diplôme, régulièrement utilisées en sciences sociales[b],[c]. On cherche à identifier le diplôme le plus élevé qu'a obtenu un individu.

Voici les modalités de réponses possible : aucun diplôme, CEP (Certificat d'études primaires), BEPC, brevet élémentaire, brevet des collèges, CAP, brevet de compagnon, BEP, baccalauréat général, brevet supérieur, baccalauréat technologique ou professionnel, brevet professionnel ou de technicien, BEA, BEC, BEI, BEH, capacité en droit, diplôme de premier cycle universitaire, BTS, DUT, diplôme des professions sociales ou de la santé, d'infirmière, diplôme de deuxième ou troisième cycle, (y compris médecine, pharmacie, dentaire), diplôme d'ingénieur, d'une grande école, doctorat, etc.

Recodage qualitatif

modifier

Un premier codage consiste à regrouper des diplômes selon la nomenclature des diplômes par niveau[d]. On obtient six groupes (niveau 3 à 8). Puis on agrège des niveaux de diplômes pour obtenir quatre groupes : niveau inférieur aux BAC (sans diplôme, BEP, CAP, etc.), niveau BAC (général, technologique, professionnel, etc.), niveau de premier cycle universitaire ou équivalent (BAC +2), niveau de deuxième ou troisième cycle universitaire ou équivalent (BAC +5, BAC +8). On obtient un premier recodage qualitatif (sans bac, bac, bac+2, bac+5 ou plus), et il est possible de considérer cette variable comme ordinale suivant la logique « du moins diplômé au plus diplômé ». On peut également réduire le nombre de catégorie (sans bac ou bac ou plus).

Recodage quantitatif

modifier

Il est possible d'effectuer un recodage quantitatif, ce qui permet d'élargir le types de traitement statistique. Par exemple, 0 pour sans bac, 1 pour bac, 2 pour bac+2, et 3 pour bac+5 ou plus. L’usage de valeurs numérique (0, 1, 2, 3) pour ces catégories tendrait à faire « comme si » les distance qui les séparent sont équivalente (puisque la distance qui sépare les valeurs numériques 0 et 1 et la même de celle qui sépare 1 et 2, etc.)[13]. Cependant, les distances qui séparent chaque catégorie ne sont pas équivalente[13]. En effet, on ne peut pas dire que la distance qui sépare les catégories 0 et 1 est équivalence à la distance qui sépare les catégories 1 et 2, et à la distance qui sépare les catégories 2 et 3[13].

Exemple de la classe sociale

modifier

Selon la manière de coder l'appartenance à une classe sociale, la variable classe sociale sera nominale ou ordinale :

  • la variable classe sociale mesurée au États-Unis par les valeurs « classes inférieure » (lower classes), « classes intermédiaire » (middle classes), « classes supérieure » (upper classes), est une variable ordinale[22],[23],[24].
  • la variable classe sociale mesurée par les catégories socioprofessionnelles[e] (Agriculteurs ; Artisans, commerçants et chefs d'entreprises ; Cadres et professions intellectuelles supérieures ; Professions intermédiaires ; Employés ; Ouvriers) est une variable nominale[13].

Dans le premier cas, il existe des positions ordonnée entre les trois classes (par exemple, la classe intermédiaire se situe entre la classe inférieure et la classe supérieure)[25], ce qui n'est pas le cas pour le second cas (toutes les modalités ne sont pas ordonnées).

Contrairement aux variables nominales, les variables ordinales s’inscrivent dans un continuum hiérarchique des valeurs[25]. On peut dire que dans la hiérarchie des classes sociales, une personne provenant de la classe sociale supérieure est plus élevée qu’un personne issue de la classe intermédiaire, et que ce dernier est plus élevé qu’une personne de la classe inférieure. En revanche, on ne peut considérer qu’une personne de la classe sociale supérieure a deux fois plus de classe sociales qu’une personne de la classe inférieure, ou que la distance entre la classe inférieure et la classe intermédiaire est la même que la distance entre cette la classe intermédiaire et la classe supérieure[25]. Il n'est que possible qu’ordonner ces valeurs[25].

Notes, références et bibliographie

modifier
  1. Un individu statistique est une unité statistique : un objet, une personne, un pays, une couleur, un évènement, etc. (Bressoux 2010, p. 41).
  2. Par exemple, l’ISSP est un programme de recherche transnational qui mène des enquêtes sociales sur divers sujets (travail, santé, religion, environnement, etc.) Voir le site internet.
  3. Liens vers la documentation de l'enquête ISSP 2020, et les variables utilisées.
  4. D'après une nomenclature du gouvernement français par exemple
  5. Les catégories socioprofessionnelles sont une nomenclature utilisée en France

Références

modifier
  1. a et b Fox et Imbeau (1999), p. 9.
  2. Bressoux (2010), p. 41 et suivantes.
  3. a b et c Fox et Imbeau (1999), p. 16.
  4. a b c et d Bressoux (2010), p. 44.
  5. a et b Martin (2020), p. 48.
  6. Bressoux (2010), Chap. 2.
  7. Fox et Imbeau (1999), Chap. 1.
  8. Blöss et Grossetti (1999), Chap. 2.
  9. Howell (2018), Chap. 1.
  10. a b c d e f g h i et j Bressoux (2010), p. 43.
  11. Martin (2020), p. 47-48.
  12. Bugeja-Bloch et Couto (2021), p. 80.
  13. a b c d e f g h i j et k Bressoux (2010), p. 42.
  14. a b et c Martin (2020), p. 48-49.
  15. Fox et Imbeau (1999), p. 13.
  16. Fox et Imbeau (1999), p. 14-15.
  17. Howell (2018), p. 7.
  18. a et b Fox et Imbeau (1999), p. 14.
  19. a b c d e f et g Fox et Imbeau (1999), p. 18.
  20. Martin (2020), p. 49-50.
  21. Bugeja-Bloch et Couto (2021), p. 79.
  22. Fox et Imbeau (1999), p. 11.
  23. Desrosières (2008).
  24. Amossé et Penissat (2019).
  25. a b c et d Fox et Imbeau (1999), p. 12.

Bibliographie

modifier

Références utilisées dans la rédaction de l'article

modifier

Autres références utilisées dans l'article

modifier
  • [Blöss et Grossetti 1999] Thierry Blöss et Michel Grossetti, Introduction aux méthodes statistiques en sociologie, Presses Universitaires de France - PUF, (ISBN 978-2-13-049880-3)
  • [Howell 2018] David C. Howell, Méthodes statistiques en sciences humaines, De Boeck Supérieur, , 2e éd. (ISBN 978-2-8041-5685-5)

Autres références sur les statistiques descriptives

modifier
  • [Selz 2012] Marion Selz, « Le raisonnement statistique en sociologie », dans L'enquête sociologique, Presses Universitaires de France - PUF, (ISBN 978-2-13-060873-8, lire en ligne Accès payant), p. 247-266 — accès gratuit par la bibliothèque Wikipédia.

Références sur la catégorisation des classes sociales utilisées dans l'article

modifier
  • [Desrosières 2008] Alain Desrosières, « Les catégories socioprofessionnelles », Courrier des statistiques, vol. 125,‎
  • [Amossé et Penissat 2019] Thomas Amossé et Étienne Penissat, « Entre ordonnancement hiérarchisé des professions et regroupement des métiers par domaine d’activité. La double asymétrie des représentations ordinaires », L'Année sociologique, vol. Vol. 69, no 2,‎ , p. 511–539 (ISSN 0066-2399, DOI 10.3917/anso.192.0511, lire en ligne Accès libre)

Voir aussi

modifier