Moyenne interquartile
La moyenne interquartile est une mesure statistique de tendance centrale basée sur la moyenne tronquée de l'intervalle interquartile. La moyenne interquartile est très similaire à la méthode de notation utilisée dans les sports qui sont évalués par un panel de juges : écarter les scores les plus bas et les plus élevés ; calculer la valeur moyenne des scores restants.
Calcul
modifierDans le calcul de la moyenne interquartile, seules les données comprises entre le premier et le troisième quartile sont utilisées, et les 25 % les plus bas et les 25 % les plus élevés des données sont écartés.
en supposant que les valeurs xi ont été ordonnées[1].
Exemples
modifierTaille du jeu de données divisible par 4
modifierLa méthode est mieux expliquée avec un exemple. On considère l'ensemble de données suivant :
- 5, 8, 4, 38, 8, 6, 9, 7, 7, 3, 1, 6
On trie d’abord la liste par ordre croissant :
- 1, 3, 4, 5, 6, 6, 7, 7, 8, 8, 9, 38
Il y a 12 observations (points de données) dans l'ensemble de données, ce qui donne donc 4 quartiles de 3 nombres. On supprime donc les 3 valeurs les plus basses et les plus élevées :
1, 3, 4, 5, 6, 6, 7, 7, 8,8, 9, 38
Il reste maintenant 6 des 12 observations restantes ; ensuite, on calcule la moyenne arithmétique de ces nombres :
- xMIQ = 5 + 6 + 6 + 7 + 7 + 86 = 6,5
C'est la moyenne interquartile.
À titre de comparaison, la moyenne arithmétique de l'ensemble de données d'origine est
- 5 + 8 + 4 + 38 + 8 + 6 + 9 + 7 + 7 + 3 + 1 + 612 = 8,5
en raison de la forte influence de la valeur aberrante, 38.
Taille de l'ensemble de données non divisible par 4
modifierL'exemple ci-dessus comprenait 12 observations dans l'ensemble de données, ce qui rendait la détermination des quartiles très facile. Cependant, tous les ensembles de données ne contiennent pas un nombre d’observations divisible par 4. On peut ajuster la méthode de calcul de la moyenne interquartile pour tenir compte de cela. Donc, idéalement, on veut que la moyenne interquartile soit égale à la moyenne des distributions symétriques, par exemple :
- 1, 2, 3, 4, 5
a une valeur moyenne xm = 3, et comme il s'agit d'une distribution symétrique, xIQM = 3 serait souhaité.
On peut résoudre ce problème en utilisant une moyenne pondérée des quartiles et de l'ensemble de données interquartiles :
On considère l'ensemble de données suivant de 9 observations :
- 1, 3, 5, 7, 9, 11, 13, 15, 17
Il y a 9/4 = 2,25 observations dans chaque quartile et 4,5 observations dans l'intervalle interquartile. On tronque la taille du quartile fractionnaire et on supprime ce nombre des 1er et 4e quartiles (2,25 observations dans chaque quartile, donc les 2 plus bas et les 2 plus élevés sont supprimés).
1, 3, (5), 7, 9, 11, (13),15, 17
Ainsi, il y a 3 observations complètes dans l'intervalle interquartile avec un poids de 1 pour chaque observation complète, et 2 observations fractionnaires avec chaque observation ayant un poids de 0,75 (1 – 0,25 = 0,75). On a donc un total de 4,5 observations dans l'intervalle interquartile, (3×1 + 2×0,75 = 4,5 observations).
La moyenne interquartile est désormais calculée comme suit :
- x IQM = {(7 + 9 + 11) + 0,75 × (5 + 13)} / 4,5 = 9
Dans l'exemple ci-dessus, la moyenne a une valeur xm = 9, et le calcul de la moyenne interquartile donne la même valeur, comme souhaité. La méthode de calcul de la moyenne interquartile pour un nombre quelconque d'observations est analogue ; les contributions fractionnaires à la moyenne interquartile peuvent être de 0, 0,25, 0,50 ou 0,75.
Comparaison avec la moyenne et la médiane
modifierLa moyenne interquartile partage certaines propriétés de la moyenne et de la médiane :
- Comme la médiane, la moyenne interquartile est insensible aux valeurs aberrantes ; dans l'exemple donné, la valeur la plus élevée (38) était une valeur aberrante évidente de l'ensemble de données, mais sa valeur n'est pas utilisée dans le calcul de la moyenne interquartile. En revanche, la moyenne usuelle (la moyenne arithmétique ) est sensible à ces valeurs aberrantes : x m = 8,5.
- Comme la moyenne, la moyenne interquartile est un paramètre distinct, basé sur un grand nombre d'observations de l'ensemble de données. La médiane est toujours égale à l'une des observations de l'ensemble de données (en supposant un nombre impair d'observations). La moyenne peut être égale à n'importe quelle valeur comprise entre l'observation la plus basse et la plus élevée, en fonction de la valeur de toutes les autres observations. La moyenne interquartile peut être égal à n'importe quelle valeur comprise entre le premier et le troisième quartile, en fonction de toutes les observations dans l'intervalle interquartile.
Voir également
modifierStatistiques associées
modifierApplications
modifier- Le Libor estime un taux d’intérêt de référence comme la moyenne interquartile des taux proposés par plusieurs banques (SOFR, le principal remplaçant du Libor aux États-Unis, utilise un prix moyen pondéré en fonction du volume qui n'est pas robuste).
- Everything2 utilise la moyenne interquartile des réputations des articles d'un utilisateur pour déterminer la qualité de la contribution de l'utilisateur. [1]
- La moyenne interquartile a été utilisée pour l'évolution des cours de l'immobilier[2].
Références
modifier- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Interquartile mean » (voir la liste des auteurs).
- Neil Salkind, Encyclopedia of Research Design, (ISBN 978-1-4129-6127-1, DOI 10.4135/9781412961288, lire en ligne)
- Gaston Duon, « Évolution de la valeur vénale des immeubles parisiens », Journal de la société statistique de Paris, vol. 84, , p. 169-192 (lire en ligne)