« Paradoxe de Simpson » : différence entre les versions

Contenu supprimé Contenu ajouté
Sofragui (discuter | contributions)
Suppression des deux exemples: pas de référence pour le premier, et le second s'apparente presque à un "travail inédit"
Sofragui (discuter | contributions)
suppression de deux exemples: pour le premier (résultats scolaires) pas de référence, pour le second (contribution wikipédia) il s'apparente à un travail inédit donc il n'a pas sa place ici.
Balises : Révoqué Éditeur visuel
Ligne 27 :
 
== Exemples ==
 
=== Résultats scolaires et pratique sportive ===
 
Pour expliquer le paradoxe de Simpson, imaginons que l'on mesure la performance scolaire de différents élèves en fonction de la quantité de sport pratiqué. Supposons que l'on obtienne les résultats présentés dans le graphique en tête de cet article : l'axe horizontal x ([[abscisse]]) représente la quantité de sport pratiqué (par exemple en heures par semaine) et l'axe vertical y ([[ordonnée]]) représente la performance scolaire (par exemple, la moyenne des notes sur 10). Dans cet exemple imaginaire, on voit que parmi les élèves « bleus » ceux qui pratiquent davantage de sport sont meilleurs à l'école et il en est de même dans le groupe « rouge ». Pourtant, quand on combine les deux groupes on a une relation inversée qui semble indiquer que plus on pratique de sport (x élevé), moins on obtient de bonnes performances scolaires (baisse sur l'axe y) : l'observation des deux groupes combinés (droite noire en pointillés) semble contredire ce qu'on a observé dans chacun des groupes.
 
Cet exemple-jouet illustre l'existence de différences entre les groupes (bleu et rouge) dont on n'a pas tenu compte dans l'analyse. En les négligeant, on peut aboutir à des conclusions qui semblent contradictoires. C'est un exemple du paradoxe de Simpson{{refnec}}.
 
=== Contributeurs de Wikipédia ===
 
[[File:Simpsons_paradox_-_animation.gif|thumbnail|right|400px|
Illustration animée du paradoxe de Simpson.
]]
Pour illustrer ce paradoxe de manière plus détaillée, considérons deux contributeurs de Wikipédia : Lisa et Bart. La première semaine, Lisa modifie 60 % des articles qu'elle consulte alors que Bart modifie 90 % des articles qu'il lit. La deuxième semaine, Lisa ne modifie que 10 % des articles lus et Bart 30 %. Les deux fois, Bart possède un taux de modifications supérieur à Lisa.
 
Pourtant, sur les deux semaines, Lisa a modifié un plus grand pourcentage d'articles que Bart : 55 % contre 35 % pour Bart (chiffres arrondis). Ce paradoxe apparent est dû au fait que dans les chiffres hebdomadaires on n'a pris en compte que le taux de modifications, alors que dans le bilan, on a utilisé en plus le nombre d'articles lus.
 
La première semaine, Lisa lit 100 articles et en modifie 60 (on retrouve bien 60 % de modifications). Pendant ce temps, Bart modifie 9 des 10 articles qu'il consulte (on retrouve les 90 % de la première semaine). La deuxième semaine, Lisa modifie 1 article sur les 10 lus (10 %) et Bart 30 sur 100 (30 %). Quand les chiffres des deux semaines sont combinés, on constate que les deux contributeurs ont lu autant d'articles (110) mais que Lisa en a modifié 61 contre seulement 39 pour Bart.
 
{| class="wikitable" border=1 cellspacing=0 align=center cellpadding=2
|+
|
! scope="col" align=center | '''Semaine 1'''
! scope="col" align=center | '''Semaine 2'''
! scope="col" align=center | '''Total'''
|-
!scope = "row"| '''Lisa'''
| align=center | 60/100 = 60 % || align="center" | 1/10 = 10 % || align="center" | 61/110 = 55,45 %
|-
!scope = "row"| '''Bart'''
| align=center | 9/10 = 90 % || align="center" | 30/100 = 30 % || align="center" | 39/110 = 35,45 %
|}
 
Il apparaît que les chiffres de chaque semaine, pris séparément, soutiennent une hypothèse mais, une fois rassemblés, démontrent l'hypothèse inverse.
 
D'une manière plus formelle :
 
{{Exemple|nom = La première semaine |
* <math>S_A(1) = 60\% ~</math> — Lisa modifie 60 % des articles qu'elle lit.
* <math>S_B(1) = 90\% ~</math> — Bart modifie 90 % des articles étudiés.
Bart a modifié un plus grand taux d'articles.
}}
 
{{Exemple|nom= La deuxième semaine |
* <math>S_A(2) = 10\%~</math> — Lisa modifie 10 % des articles lus.
* <math>S_B(2) = 30\%~ </math> — Bart modifie 30 % des articles lus.
Bart a encore dépassé Lisa.
}}
Dans les deux cas, Bart a un pourcentage de modifications supérieur à Lisa. Mais comme en deux semaines, les deux contributeurs ont lus 110 articles chacun, on établit que :
 
* <math>S_A = \begin{matrix}\frac{61}{110}\end{matrix}</math> — Lisa a modifié 61 articles.
* <math>S_B = \begin{matrix}\frac{39}{110}\end{matrix}</math> — Bart n'en a modifié que 39.
* <math>S_A > S_B~</math> — Lisa a modifié plus d'articles que Bart (hypothèse opposée).
 
Le paradoxe apparent vient du fait que Bart a un taux de modifications supérieur chaque semaine, alors que sur les quinze jours, Lisa a modifié plus d'articles. Dans un cas, on prend en compte le ''taux'' de modifications, et dans l'autre, le ''nombre'' de modifications.
 
Les bases [[mathématiques]] du paradoxe sont sans équivoque. Si <math>S_B(1) > S_A(1)</math> et <math>S_B(2) > S_A(2)</math>, on ''sent'' que <math>S_B</math> ''doit être plus grand'' que <math>S_A</math>. Mais si des pondérations ''différentes'' sont utilisées pour obtenir le score final de chaque contributeur, alors cette tendance s'inverse.
 
Le premier score de Lisa est pondéré : <math>\begin{matrix}\frac{100}{110}\end{matrix}</math>; de même pour Bart : <math>\begin{matrix}\frac{10}{110}\end{matrix}</math>.
 
Mais ces poids sont inversés par la suite.
 
* <math>S_A = \begin{matrix}\frac{100}{110}\end{matrix}S_A(1) + \begin{matrix}\frac{10}{110}\end{matrix}S_A(2)</math>
* <math>S_B = \begin{matrix}\frac{10}{110}\end{matrix}S_B(1) + \begin{matrix}\frac{100}{110}\end{matrix}S_B(2)</math>
 
Finalement, la question est de savoir qui est le plus efficace. Lisa semble l'être plus que Bart, puisqu'elle a modifié plus d'articles. Cependant, si on suppose que Lisa n'a fait que des corrections de coquilles et Bart que des modifications complexes concernant la neutralité, on pourrait dire que les 39 modifications de Bart sont plus importantes que les 61 de Lisa. Bart serait alors plus efficace. Le résultat dépend donc de ce que l'on entend par « efficacité ».
 
Cet exemple démontre que le vocabulaire et le contexte sont importants pour qualifier la notion de succès, concept qui peut être trompeur si l'on s'en tient aux chiffres{{refnec}}.
 
=== Traitement des calculs rénaux ===
Ce document provient de « https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson ».