Discussion:Écart type

Dernier commentaire : il y a 5 ans par Ambigraphe dans le sujet Reorganisation
Autres discussions [liste]

Sans titre modifier

Si un matheux pouvait vérifier la partie 4 et ajouter un ou deux exemples bien concrets... --Lauranne 29 nov 2004 à 01:40 (CET)

Je pense que les notations (racine carré) seraient moins lourdes en remplaçant l'écart type par la variance. fs 26 avr 2005 à 15:37 (CEST)

C'est vrai mais il s'agit d'un article sur l'écart type et non la variance. Le choix a été fait de ne pas doublonner les formules (pour l'écart type et pour la variance) et, comme l'écart type est la valeur significative en stat et en proba (même unité que le phénomène étudié, contrairement à la variance), c'est sur cet article que sont mises les formules. HB 26 avr 2005 à 15:57 (CEST)
Ce n'est pas l'usage. L'écart type n'est qu'une comodité dimensionnelle. Soit on utilise V(x) , soit et pas des racines carrés partout. De plus le paragraphe "pourquoi n-1?" est très confus, pas totalement faux, mais pas totalement vraie. Attention à la rigueure mathématique! fs 26 avr 2005 à 16:12 (CEST)
eh bien corrige ou signale les erreurs...HB 26 avr 2005 à 18:16 (CEST)
PS remarque mesquine (;-)) "rigueur", "vrai" , "commodité" attention à la rigueur orthographique.

definition 1 modifier

J'ai un gros doute sur l'égalité

le developpement de (a-b)² donne a² + b² - 2.a.b et pas a² - b² comme c'est marqué. Peut-être qu il y a une simplification que je n'aurais pas vu.

troublant n'est-ce pas ?? mais juste :
En cassant la somme en 3 parties, et en mettant en facteur les constantes
et comme et on obtient bien
HB 9 novembre 2005 à 10:13 (CET)Répondre
je tente d'illustrer la véracité de cette formule "troublante" avec le barycentre.Michelbailly 28 juin 2006 à 00:49 (CEST)Répondre

statistique groupée ou non regroupé? modifier

Je m'intéresse à la statistique pour l'instrumentation afin de connaître l'incertitude sur une mesure. Hélas je ne vois pas de quoi vous parler quand vous utilisez le terme groupés ou non groupé pour les deux premières formules. Bien amicalement --Anarchimede [[Discussion Utilisateur:Anarchimede| ✍]] 26 avril 2006 à 16:12 (CEST)Répondre

série de mesures non regroupées : 2; 4; 3; 4 ; 3 ; 5; 4 ; 5 ; 6; 4, moyenne 4 , écart type
(ouf)
La même série regroupée
Valeurs 2 3 4 5 6 Total
Effectifs 1 2 4 2 1 10
moyenne 4, écart type :
mais tu peux lire aussi Statistiques élémentaires discrètes ou bien Variance qui propose un calcul de la variance (carré de l'écart type) en temps réel. HB 26 avril 2006 à 20:15 (CEST)Répondre

Orthographe modifier

Doit on écrire: écart-type ou écart type? Est ce mot composé? Les deux écritures sont elles exactes? Quel est alors le pluriel: écarts-types? écarts types? écarts type? écarts-types,...? Nico29 24 mai 2006 à 09:54 (CEST)Répondre

personnellement, je ne l'ai vu que sans trait d'union (encyclopédie de math + TLFI). Quant au pluriel..., j'aurais tendance à mettre écart au pluriel bien sûr mais type aussi au pluriel (m'appuyant sur le TLFI voitures-types). Seulement ne me demande pas de faire une analyse grammaticale de type. Une question pour l'oracle peut-être HB 24 mai 2006 à 12:18 (CEST)Répondre
tous sont acceptables... selon l'enquête de J. Goupy : [1] --Ptitpoul (d) 4 août 2009 à 23:58 (CEST)Répondre
(Presque) tous sont utilisés, nuance. À mon avis, l'orthographe première est « écart type » avec mise au pluriel des deux mots. On peut cependant admettre qu'en mathématiques soit apparu un syntagme « écart-type ». Je préconiserais bien l'usage sans trait d'union mais le signalement de cet emploi assez fréquent en note de bas de page. Ambigraphe, le 8 août 2009 à 15:39 (CEST)Répondre
La forme « écart type » étant analysable selon les règles ordinaires du français (« type » est apposé à « écart » pour indiquer qu’il s’agit d’un écart qui est un type, c’est-à-dire qui est typique, comme dans, par exemple : « bouton poussoir », « enfant prodige », « contrat type », « erreur type » – et le pluriel est donc logiquement « écarts types »), le trait d’union est malvenu. L’usage, divisé, ne l’impose pas par ailleurs. Cependant, Larousse (Larousse en ligne, Petit Larousse 2005) ne donne que la forme avec trait d’union ; mais Robert, l’Académie, Jouette ne donnent que la forme sans. Le TLF ne se prononce pas, mais cite un exemple, unique, sans trait d’union. Palpalpalpal (discuter) 25 janvier 2015 à 13:58 (CET)Répondre

Variance et écart type modifier

« Plus généralement, l'écart type se généralise à travers la variance  » Je n'ai jamais eu cette impression Oxyde 31 mars 2007 à 11:18 (CEST)Répondre

Tu as raison, la phrase est pour le moins ambiguë. Je tente une réécriture. HB 31 mars 2007 à 15:35 (CEST)Répondre

Paragraphe sur la théorie des sondages modifier

Bonjour, je suis d'avis de clarifier cette partie et surtout de ne pas trop s'étendre sur l'écart-type empirique corrigé, mais de le mentionner comme estimateur souvent proposé de l'écart-type théorique, ainsi que ses propriétés. Je pense qu'il vaut mieux ensuite renvoyer le wikipédien à l'article plus complet dans ce domaine: Estimateur (statistique) où il pourra comprendre plus facilement, approximation, biais, convergence... Cyrflo2000 (d) 4 février 2008 à 19:31 (CET)Répondre

idem estimateur (statistique). Vas-y sans hésitation. HB (d) 4 février 2008 à 19:52 (CET)Répondre
D'accord, je vais clarifier un peu la partie sur les sondages ce soir. Pour le chapitre sur la construction d'estimateurs je verrais en fin de semaine (il me semble qu'il y a des petites erreurs en associant notament à la variance simple le "n-1", alors qu'il s'agit de la corrigée). Mais c'est beaucoup plus long et j'ai peu de temps à moi en ce moment. Si ça ne convient pas (je n'espère pas), heureusement il y a l'historique (une partie de ce que j'ôtes sera remis dans la partie variance de l'article sur l'estimation). Ah et, je pinaille p-ê, mais il faut faire attention au terme "variable aléatoire" représentées par des majuscules, les minuscules représentent des réalisations de ces mêmes variables ! Cyrflo2000 (d) 4 février 2008 à 21:01 (CET)Répondre
Voilà, je n'ai pas voulu défaire trop de choses et surtout pas la partie "Pourquoi n-1", il me semble qu'elle a sa place dans l'article sur les estimateurs. Il manque aussi les espérances et les variances des deux écart-type empiriques (dès que j'ai plus de temps). Cyrflo2000 (d) 4 février 2008 à 21:40 (CET)Répondre

Division par n-1 modifier

Pour préciser mon édition récente et suite à un commentaire dans l'historique: je ne suis pas un spécialiste des stats en maths, mais les physiciens divisent toujours par n-1 et non n (ce qu'ils appellent bien écart-type). La raison est facile à comprendre, si vous avez une mesure sur une variable, vous ne savez rien sur l'erreur commise (autrement dit elle est infinie). Lerichard (d) 22 février 2008 à 21:22 (CET)Répondre

Les physiciens utilisent l'écart-type statistique ou déviation standart utilisé en théorie des sondages. En probabilité, la définition est différente, j'ai donc corrigé ta modification qui n'intervenait pas au bon endroit. HB (d) 19 mars 2008 à 19:41 (CET)Répondre
Ce n'est pas à cause de la moyenne qui compte comme un essai? Celle ci est construite avec une combinaison linéaire de toutes les données. Le degré de liberté du système est donc réduit de 1 (voir la version anglaise)

RMS modifier

Les écarts types connaissent de nombreuses applications, tant dans les sondages, qu'en physique (où ils sont souvent nommés RMS par abus de langage).

Il me semble que « RMS » (root mean square) est à rejeter, comme « déviation standard », en tant qu'anglicisme mais que la traduction « moyenne quadratique » est couramment utilisée en français (voir Moyenne#Moyenne quadratique). A ma connaissance, « standard deviation » se traduit par « écart-type » pour une variable aléatoire et « root mean square » se traduit par « moyenne quadratique » pour un processus aléatoire, ce qui s'applique à un signal considéré comme réalisation d'un processus. Jct (d) 24 mars 2008 à 10:21 (CET)Répondre

D'après ce document (page 24), il semblerait en effet que le terme « standard deviation » se traduise par « écart-type ». Pamputt 5 mai 2010 à 13:53 (CEST)Répondre

« Vraie » valeur modifier

À ma connaissance, il n'y a pas de vraie valeur mais une valeur exacte lorsqu'on connaît toute la population et une estimation lorsqu'on n'en connaît qu'une portion.

En statistique descriptive on travaille sur une population finie donc en principe connue comme, par exemple, l'ensemble des notes d'une classe. Il s'agit d'un problème algébrique dans lequel la variance est définie arbitrairement par la formule la plus simple avec le dénominateur n. L'écart-type est alors défini sans discussion possible comme la racine carrée de la variance.

Dans d'autres cas les données qu'on possède ne fournissent qu'une information limitée sur une population de taille plus élevée. On est donc amené à associer à celles-ci une loi de probabilité qui permet d'obtenir une estimation de la variance inconnue. Celle-ci est sans biais si l'on utilise le dénominateur n-1. Comme dit ensuite la racine carrée de l'estimation sans biais de la variance est biaisée.

C'est peut-être trop subtil pour moi mais je ne comprends pas la première phrase de Propriétés des estimateurs. Jct (d) 23 février 2010 à 15:14 (CET)Répondre

En ce qui concerne le premier point, mea culpa, j'étais pressé et le terme « valeur exacte » (largement préférable au terme « vraie valeur », effectivement) m'échappait. Je corrige. Idem pour l'« estimation ».
Pour le second point, je suis biaisé par ma discipline. J'essaie de préciser tout ça en faisant la distinction statistique/physique expérimentale, dis-moi ce que tu en penses.
Je ne suis pas compétent sur le dernier point, je te laisse juge. Skippy le Grand Gourou (d) 23 février 2010 à 15:28 (CET)Répondre
Je perds la tête ! Le 25 mars 2008 j'avais ajouté la section Généralités qui raconte à peu près la même chose et qui a visiblement été ignorée par les contributeurs suivants. C'est d'ailleurs une obsession chez moi, au pire contestée, au mieux ignorée, que j'avais jugée utile d'introduire dans Statistiques#Statistique descriptive et statistique mathématique. C'est un peu plus détaillé et (je l'espère) un peu plus clair. Merci de bien vouloir le lire et me dire si c'est compréhensible. Jct (d) 23 février 2010 à 16:17 (CET)Répondre
Pas la peine de s'énerver… Émoticône
La partie généralités est effectivement claire. Ceci dit, je pense que la structure de l'article ne l'est pas. Or je pense qu'il y a deux types de lecteurs : celui qui va lire tout l'article, à mon avis rare, et celui qui va chercher à aller directement au but, à savoir « quelle est la formule de l'écart-type », et donc cliquer directement sur le titre le plus approprié dans le sommaire sans passer par la case « généralités ». À mon avis l'idéal serait de revoir complètement la structure de l'article, ce que je n'ai ni le temps de faire ni les compétences requises sauf à y investir encore plus de temps. En attendant, je ne pense pas qu'il soit gênant que ces informations apparaissent en double dans l'article, si cela peut éviter aux gens de prendre la mauvaise formule.
En ce qui concerne le lien que tu donnes, ça me semble également clair, simplement j'éviterais la présomption de synonymie entre « statistique descriptive » et « analyse des données », fausse en physique expérimentale, et je rappellerai dans chaque paragraphe de quelle statistique il s'agit. Skippy le Grand Gourou (d) 23 février 2010 à 16:49 (CET)Répondre

Origine du mot « écart type » modifier

Bonjour, est ce que vous connaissez l'origine du mot « écart type » ? Qui a utilisé ce terme le premier, ... ? Pamputt 5 mai 2010 à 16:17 (CEST)Répondre

Remarques modifier

  • l'écart type empirique corrigé dont la formule diffère de celle utilisée en probabilité. Je croyais que l'écart type non biaisé faisait partie des probabilités utilisées en statistique mathématique/inférence statistique alors que l'écart type empirique appartenait à la statistique descriptive (ce qui est ignoré dans la section Généralités).
  • en physique (où ils sont souvent nommés RMS (Root Mean Square) par abus de langage). S'agit-il d'un abus de langage ou d'un anglicisme ? Il me semble qu'en français RMS se traduit par moyenne quadratique et s'applique de toute façon aux signaux ou au processus aléatoires plutôt qu'aux variables aléatoires.
  • En probabilité/Définition. La définition est précisée pour des variables discrètes, puis la loi uniforme est introduite sans autre définition.
✔️ j'ai ajouté une petite précision pour décrire la loi uniforme discrète--Jackverr (d) 18 mars 2012 à 19:55 (CET)Répondre
Cette précision sur une loi particulière n'apporte pas vraiment d'information utile. Il en va de même pour la loi uniformément continue (que je connaissais sous le nom de loi uniforme) présentée apparemment comme seule loi continue avant la définition générale. Il me paraîtrait plus cohérent de donner les deux définitions générales sans intercaler les exemples de lois plus ou moins uniformes.--Jct (d) 19 mars 2012 à 10:38 (CET)Répondre
  • Les moments standardisés particuliers et le coefficient de corrélation calculé à partir d'une covariance ont-ils leur place ici ?
✔️ j'ai supprimé le paragraphe--Jackverr (d) 18 mars 2012 à 19:55 (CET)Répondre
  • Écart type empirique corrigé est introduit lorsque la moyenne est une estimation et que sa valeur exacte est inconnue, comme par exemple en physique expérimentale où la moyenne des valeurs mesurées est la seule grandeur dont dispose l'expérimentateur. D'une part l'estimation non biaisée de la variance est systématiquement utilisée en inférence statistique, d'autre part il est dit plus loin que la formule donnant un estimateur non biaisé de l'écart-type est complexe. Dans ces conditions, que viennent faire ici toutes les informations sur les biais et surtout les non-biais ? Il me semble qu'il suffirait de dire que l'estimation de l'écart type est biaisée.
  • Que vient faire ici le théorème central limite ? Il me semble qu'on se complique vraiment la tâche en demandant à un article nommé Écart type de couvrir toutes les probabilités et statistiques.--Jct (d) 18 mars 2012 à 11:42 (CET)Répondre
✔️ j'ai supprimé le paragraphe--Jackverr (d) 18 mars 2012 à 19:55 (CET)Répondre

Biais modifier

Faut-il parler à trois reprises de biais et de non-biais dans un article portant sur l'écart type finalement présenté comme... biaisé ? Cet article n'a pas pour but d'exhiber un maximum de notions générales, biais, moments standardisés, variable centrée réduite, corrélation, théorème central limite, l'inégalité de Bienaymé étant par contre à sa place. Il me semblerait logique d'introduire la notion de biais au début de la section En statistique à propos des variances empirique et empirique corrigée, ni avant, ni après. --Jct (d) 21 mars 2012 à 10:49 (CET)Répondre

Statistique modifier

Par essence, l'écart-type est peu utilisé en statistique. Où est-il alors utile de donner au paramètre de dispersion la même dimension physique que la moyenne ? Accessoirement, il me semble que l'expression ne comporte pas de trait d'union.--Jct (d) 31 mars 2012 à 10:07 (CEST)Répondre

BA ? modifier

Écart type des écarts types empiriques modifier

Dans l'article, il est écrit (...) Cette loi a pour écart type et donc l'écart type de la distribution des écarts types de variables normales a pour expression . Or, ici http://web.eecs.umich.edu/~fessler/papers/files/tr/stderr.pdf, je comprends que c'est . C'est contradictoire, non ?

Propriétés écart-type modifier

Bonjour,

dans l'article concernant l'écart-type, plus exactement dans la partie Applications, il est question d'un exemple qui illustre le fait que l'écart-type varie entre 0 (lorsque tous les individus d'une distribution présentent la même modalité) et une valeur qui n'est pas clairement définie. Il est suggéré que cet écart-type "maximal" est égal à l'étendue de la distribution divisé par deux : (max-min)/2.

À partir des ressources dont je dispose je ne suis pas arrivé à compléter cette propriété. J'ai juste trouvé des précisions ici. La définition énonce :

L'écart-type est nul (s = 0) lorsque tous les résultats sont identiques; sa valeur serait en revanche maximale si les résultats se répartissaient dans les mêmes proportions aux deux extrémités de l'échelle de mesure. Si k désigne le nombre de catégories que l'échelle comporte ou le nombre de résultats possibles (11 pour une échelle de nombres entiers allant de 0 à 10), la valeur maximale de l'écart-type est égale à (k – 1) / 2 (smax = 5 pour k = 11).

Étant donné qu'il s'agit du seul passage que j'ai trouvé qui traite de ce point, je souhaitais savoir si quelqu'un n'aurait pas d'autres ressources qui viendraient confirmer (ou infirmer, je commence à avoir des doutes en fait) cette idée. Si elle résulte vraie, je pense qu'il serait judicieux de la rendre plus explicite dans la mesure où elle permet d'avoir davantage de repères pour ce paramètre de dispersion qui n'est pas toujours évident à interpréter pour des novices en la matière.

Bien à vous,

Lost geographer (d) 3 février 2013 à 02:47 (CET)Répondre

Le texte est tellement mal formulé que j'ai commencé par avoir aussi des doutes : il y a confusion à mon avis entre nombre de résultats possibles (qui pour moi signifie effectif de la population) et étendue de la série. Il me semble facile à prouver que l'écart type est toujours inférieur ou égal à la demi-étendue de la série. J'en ai fait rapidement une démonstration au brouillon mais n'ai pas de référence sur un livre à ce sujet, donc cela me gênerait de mette ce résultat ici sans source. Pourtant c'est vrai que la donnée de la valeur max pourrait être intéressante. D'autres avis? HB (d) 3 février 2013 à 09:25 (CET)Répondre
Il me semble que c'est encore plus confus : en utilisant un exemple de variable discrète finie l'auteur a mélangé l'effectif de la population, l'étendue et... le nombre de catégories. Il est bien évident que seule l'étendue intervient.
Dans [http:books.google.fr/books?isbn=0774668687] on lit que « Le rapport entre l'étendue et l'écart type n'est jamais plus petit que 2 ni plus grand que 6 » (!).--Jct (d) 3 février 2013 à 10:42 (CET)Répondre
A quelle page ? La borne de 6 est visiblement fausse : une variable gaussienne a un écart type fini et une étendue infinie. Dans une population de grande taille , une valeur aberrante modifiera peu la moyenne et l'écart type mais changera terriblement l'étendue (prendre une valeur à b et n-1 valeurs à 0, l'étendue est b et l'écart type est ). La source ne me parait pas fiable. HB (d) 3 février 2013 à 11:40 (CET)Répondre
Je suis un pédagogue nul : j'ai toujours du mal à me faire comprendre. Mon intervention voulait pour l'essentiel confirmer la confusion de l'article amplifiée par un troisième terme et la seule citation que j'ai trouvée sur le web se terminait par un point d'exclamation qui signifiait « La source ne me parait pas fiable. » Tu l'as prise pour une évaluation de mes connaissances qui justifiait un rappel des bases. C'est moi le fautif.--Jct (d) 3 février 2013 à 12:11 (CET)Répondre
Oups pardon! j'ai toujours du mal à saisir l'ironie. HB (d) 3 février 2013 à 13:20 (CET)Répondre
C'est ce que je disais : pour marquer une citation surprenante un point d'exclamation entre parenthèses est préférable à une agression plus directe, au moins pour les gens avertis.--Jct (d) 3 février 2013 à 14:13 (CET)Répondre
"L'écart type est toujours inférieur ou égal à la demi-étendue de la série". HB : je n'aurais pas pu mieux l'exprimer !
Effectivement, dans la pratique l'énoncé parait juste (j'avais aussi fait des essais sur tableur pour vérifier la chose), mais il est vraiment curieux que l'on n'arrive pas à mettre la main sur un document qui explique clairement ce fait. C'est ce manque de sources, d'ailleurs, qui me fait douter de la validité de cette théorie, qui me paraît pourtant importante, surtout d'un point de vue pédagogique. En ce qui concerne la définition que j'ai cité au début, je l'entend de la manière suivante :
- les "résultats" ou "catégories de l'échelle" sont, statistiquement parlant, les modalités d'un caractère (dit aussi variable) ;
- "l'échelle de mesure" est l'étendue de la série. (par contre, dans le lexique de l'Édumétrie, le sens de "l'échelle de mesure" semble avoir été fusionné avec celui d'étendue et de variable !)
Dernière remarque : j'ai fait des statistiques en tant que géographe... donc mon vocabulaire peut être un peu différent que celui d'un vrai statisticien !
Lost geographer (d) 3 février 2013 à 23:08 (CET)Répondre

Estimateurs modifier

La dernière phrase de ce paragraphe n'explique pas : "Le fait de faire intervenir non pas n mais n-1 au dénominateur vient du fait que déterminer la moyenne de x à partir de l'échantillon fait perdre un degré de liberté puisque la formule relie aux valeurs . On a donc seulement n-1 valeurs indépendantes après le calcul de ".

Effectivement les n grandeurs ne sont pas indépendantes car liées par la relation . Je veux bien que l'on parle de la perte d'un degré de liberté, mais en déduire que l'on remplace alors n par (n-1), c'est une "recette de cuisine" non démontrée. La démonstration rigoureuse (que je connais) ne parle pas de "degré de liberté". On démontre rigoureusement que l'espérance de l'estimateur vaut (une démonstration est également fournie dans l'article sur la variance). Lorsque n est petit, est donc un meilleur estimateur car son espérance est exactement .

(11 avril 2015 - 23:40)

Que signifie "formulation moderne" ? modifier

Bonjour, Je note cette phrase : "Dans la formulation moderne des probabilités, à la suite des travaux de Henri Lebesgue et à la mise en place de l'axiomatique de Kolmogorov, une variable aléatoire X est une application à valeurs réelles, ou vectoriellesNote 2, suivant une loi de probabilité P.", elle sous-entend que cette formulation moderne annule et remplace ce qui est connu et utilisé depuis deux siècles. Il est assez peu courant de dire que des éléments mathématiques démontrés et utilisés sont devenus obsolètes. Quant à l'expression "suivant une loi de probabilité P" rend caduc le TCL, pourtant cité dans le même article. Pour être clair, l'écart-type est égal à l'écart moyen quadratique d'une série. Il mérite le titre d'écart-type si et seulement si la série résulte une expérience aléatoire de même loi, c'est à dire qu'on est dans les conditions d'application du TCL. Par ailleurs les formules données ne sont valable qu'en théorie, c'est à dire lorsque le nombre de valeurs tend vers l'infini. Ce qui est très rarement le cas en pratique.--Dlzlogic (discuter) 12 septembre 2017 à 14:12 (CEST)Répondre

Notification Dlzlogic : Bonjour, pour répondre à la première question, non, ça n'annule pas et ça ne remplace pas « ce qui est connu depuis deux siècles », et d'ailleurs depuis bien plus longtemps que ça, puisque le calcul des probabilités remonte à (notamment) Pascal et Fermat. En revanche, cela place la théorie des probabilités dans un cadre axiomatique moderne, comme le reste des mathématiques. On n'est plus dans une situation où l'on peut lire « On ne peut guère donner une définition satisfaisante de la Probabilité » (première ligne du Calcul des probabilités d'Henri Poincaré. On n'est plus non plus dans une situation où les lois discrètes et continues ont des statuts complètement différents, la théorie de la mesure ayant permis d'unifier les deux. On n'est plus non plus dans une situation où la définition de la probabilité se fait via l'équiprobabilité (calcul avec des fractions) pour ensuite travailler avec des séries (Laplace, en simplifiant beaucoup). Bref, oui, on est dans un cadre moderne. Ça ne signifie pas que les concepts ont fondamentalement changé : la loi normale est toujours là (Gauss), l'espérance aussi (Huygens), mais le tout est placé dans un cadre plus naturel et plus rigoureux. Le même phénomène s'est produit dans toutes les branches des mathématiques, aussi feindre l'étonnement dans le cas des probabilités paraît pour le moins surprenant.

Concernant vos autres question, non, vous n'êtes pas clair du tout, et j'ai l'impression que les concepts ne sont pas clairs pour vous non plus. L'écart-type apparaît dans plusieurs situations. Il peut apparaître, bien sûr, dans le cas d'un échantillon fini donné. C'est alors par définition la racine carrée de la variance de l'échantillon (sans aucune hypothèse a priori sur l'échantillon, même si certaines hypothèses sont nécessaires pour avoir des propriétés intéressantes pour cet écart-type). Mais il peut également apparaître dans le cas d'une variable aléatoire X donnée, et alors c'est simplement la racine carrée de la variance de la variable aléatoire X. Votre phrase « Il mérite le titre d'écart-type si et seulement si » est incorrecte. Quant aux formules qui ne seraient valables que « lorsque le nombre de valeurs tend vers l'infini », de quelles formules parlez-vous ? kiwipidae (discuter) 26 septembre 2017 à 10:22 (CEST)Répondre

Modification de sens sans modification de source. modifier

J'attire l'attention des rédacteurs de l'article et principalement de ceux qui ont Saporta sous les yeux sur le contenu de cette modification qui modifie le sens des phrases en conservant les mêmes sources. Concernant de plus un article labellisé, la méthode me semble inadaptée, je procède donc à un revert de prudence. Malheureusement n'ayant pas Saporta sous les yeux, je ne pourrai pas argumenter plus avant. HB (discuter) 22 mars 2019 à 20:57 (CET)Répondre

Bonjour, je viens de voir votre message en postant le mien... je suis surpris de ne pas avoir été notifié. J'ai essayé d'ajouter une source, je m'y suis probablement mal pris... vous la trouverez dans le message du dessous (d'ailleurs si vous savez le supprimer, ce serait volontiers) --Doubleclavier (discuter) 25 mars 2019 à 11:46 (CET)Répondre
En jetant un oeuil sur le Saporta, il ne prends pas partie (il indique que $S_{n-1}^2$ est sans biais, et que $S_{n-1}$ est biaisé). Amha il faudrait supprimer 27 comme référence à cet endroit. --Doubleclavier (discuter) 25 mars 2019 à 11:54 (CET)Répondre
Merci pour le lien Saporta ;) Il m'a confortée dans mon geste de prudence puisque vous aviez initialement modifié le texte en remplaçant
« Un estimateur naturel de l'écart type est biaisé mais dont le biais est acceptable »
sourcé par Saporta page 284 par
« Un estimateur naturel de l'écart type est biaisé mais dont le biais est acceptable »
ce que ne dit pas Saporta p.284 et que vous avez complété par
« L'estimateur lui n'est pas biaisé »
Ce qui était une erreur puisque justement ce que dit Saporta p. 280 c'est que n'est pas biaisé mais que l'est. Sur ce point, il vaut mieux laisser le texte initial, ou bien enfoncer le clou en expliquant le biais de , l'absence de biais de , et le biais maitrisé de (je passe dans la section suivante pour le terme «estimateur privilégié». HB (discuter) 25 mars 2019 à 15:27 (CET)Répondre
En effet, le cœur de la modif que je voulais apporter était sur estimateur privilégié, et je me suis laissé déborder par mon enthousiasme à écrire des âneries :-/
--Doubleclavier (discuter) 26 mars 2019 à 13:56 (CET)Répondre

Estimateur a privilegier modifier

Bonjour, suite à une modification récemment annulée par @HB, je me permet de venir ouvrir le débat sur la phrase "Sn-1 est l'estimateur privilégié b 29,b 27." qui ne rends pas compte, à mon sens des débats à ce sujet.

Certes Sn-1 est sans biais, mais, Sn est plus proche de la valeur cible. Les articles en source reflètent ce débat, notamment http://www.modulad.fr/archives/numero-37/Notule-Grenier-37/Notule-Grenier-37.pdf

Quelle suite faudrait-il donner? Si on prends parti dans le débat, ce qui ne me semble pas être très encyclopédique, peut-être faudrait il alors harmoniser le reste de l'article pour plus de lisibilité.

Bien à vous,

--Doubleclavier (discuter) 25 mars 2019 à 11:43 (CET)Répondre

je comprends vos scrupules. Le texte de Grenier laisse planer un doute sur la légitimité de prendre Sn-1 au lieu de Sn. Cependant Saporta p.280 écrit textuellement « La variance S² étant biaisée et ayant tendance à sous-estimer σ², on utilise fréquemment c'est moins qui souligne la variance corrigée dont l'espérance vaut exactement σ² ». Dans toutes les autres sources que je consulte, personne n'a de doute sur l'utilisation de Sn-1 ni , ni , ni dans mon vieux bouquin Statistique pour papa et quelques autres aussi où, après avoir expliqué le biais de S², explique que les statisticiens ont imaginé de lui substituer s²=n/(n-1) S². Grenier est-il bien représentatif des débats sur la question? Son observation empirique sur le fait que S²n serait «plus précis» que S²n-1 n'est reprise nulle part ailleurs. WP:PROPORTION nous conseille de ne pas accorder un poids indu à une observation marginale. J'aimerais que les rédacteurs de l'article et ceux qui ont voté son label se manifestent. Sinon, je proposerai un point médian (incapable que je suis de décider de la représentativité de Grenier) en parlant de débats et en remplaçant estimateur privilégié par estimateur fréquemment utilisé. HB (discuter) 25 mars 2019 à 15:50 (CET)Répondre
Concernant l'affirmation de Grenier, on peut la vérifier avec les quelques lignes de R suivantes (même si ce n'est pas la question):
N=100
sigmavrai=var(rnorm(N*N,0,1))
R=matrix(rnorm(N*N,0,1),nrow=N,ncol=N)
m=R%*%rep(1,N)/N
D=(R-m%*%rep(1,N))
D=(D*D)%*%rep(1,N)/N
var(D-sigmavrai)<var(N*D/(N-1)-sigmavrai)
var(sqrt(D)-sqrt(sigmavrai))<var(sqrt(N*D/(N-1))-sqrt(sigmavrai))
Je suis aller chercher Grenier car j'avais déjà entendu ce fait dans mes cours de prépa Agreg. Dire que 1/(n-1) est plus utilisé est tout à fait exact (à ma connaissance), on peut donc dire, en ce sens, que c'est l'estimateur privilégié.
La version anglaise (sans sources hélas), indique 4 valeurs classiques:
Four common values for the denominator are n, n − 1, n + 1, and n − 1.5: n is the simplest (population variance of the sample), n − 1 eliminates bias, n + 1 minimizes mean squared error for the normal distribution, and n − 1.5 mostly eliminates bias in unbiased estimation of standard deviation for the normal distribution.
https://en.wikipedia.org/wiki/Variance#Population_variance_and_sample_variance
--Doubleclavier (discuter) 26 mars 2019 à 14:18 (CET)Répondre
Pour Grenier, il est dommage que cela ne figure pas en dur dans des bouquins de prépa à l'agreg. Le résultat parait logique : en multipliant Sn par n/(n-1), on rapproche son espérance de l'écart type à estimer mais on augmente aussi sa dispersion. Ce que pose Grenier comme question est donc «vaut-il mieux tomber en moyenne toujours un peu en dessous mais en se dispersant peu, ou bien tomber en moyenne juste mais en se dispersant davantage ?»
Pour les infos sur la variance, on est un peu à côté du sujet (en particulier pour n +1) car ici on cherche à estimer l'écart type . Pour la division par n - 1,5, on peut la sourcer par un petit article de Ben W. Bloch, More on unbiaised estimation of the standard déviation montrant le facteur correctif à appliquer sur Sn et sur Sn-1 pour obtenir une estimation non biaisée de l'écart type d'une distribution normale. Ce facteur correctif varie en fonction de n mais, on peut s'apercevoir que ce facteur correctif consiste à diviser par un nombre proche de n - 1,5 (augmentant encore la dispersion Émoticône sourire). Reste maintenant à faire une synthèse de ces observations. HB (discuter) 26 mars 2019 à 15:28 (CET)Répondre
Je vous propose un synthèse dans la semaine. Globalement, je pense qu'on gagne en clarté à introduire $S_k$, indiquer que le choix le plus fréquent est k=n-1, et discuter du choix de k et des propriétés qui en découlent dans la partie propriété des Estimateurs. Qu'en pensez vous?
Mon code comportait une erreur, je repose donc une version qui permet de vérifier effectivement la propriété -si ça branche quelqu'un:
N=100000
n=10
sigmavrai=1
R=matrix(rnorm(N*n,0,1),nrow=N,ncol=n) #si vous voulez changez la loi, changez la mais changez aussi sigmavrai
m=R%*%rep(1,n)/n
D=(R-m%*%rep(1,n))
D=(D*D)%*%rep(1,n)/n
mean((D-sigmavrai)^2)<mean((n*D/(n-1)-sigmavrai)^2)
mean((sqrt(D)-sqrt(sigmavrai))^2)<mean((sqrt(n*D/(n-1))-sqrt(sigmavrai))^2)
Une piste peut-être de contacter Grenier pour qu'il nous passe d'autres sources... mais ce serait pour un second temps.
--Doubleclavier (discuter) 26 mars 2019 à 16:28 (CET)Répondre

Soit dit en passant, l’estimateur Sn-1 n’est pas sans biais. C’est l’estimateur de la variance S²n-1 qui l’est. Ambigraphe, le 26 mars 2019 à 18:17 (CET) Ambigraphe, Doubleclavier et moi sommes d'accord sur ce point (voir section précédente). Nous envisageons même d'indiquer que Sn-1,5 est un estimateur moins biaisé de l'écart type que Sn-1dans le cas d'une distribution normale. HB (discuter) 26 mars 2019 à 18:29 (CET) Effectivement, je n’avais pas lu la section précédente, mais j’avais tiqué en lisant la deuxième ligne de cette section. Ambigraphe, le 26 mars 2019 à 18:58 (CET)Répondre

Je viens de finir la synthèse promise, vous pourrez la trouver ici : Brouillon Ecart-Type.
@HB, @Ambigraphe et @toi qui lit ce message, je suis ouvert aux retours avant de la mettre en ligne
--Doubleclavier (discuter) 29 mars 2019 à 12:44 (CET)Répondre
Ce n’est pas la taille de la population qui rentre en jeu dans la nécessité de l’estimation (n’importe quel ordinateur de bureau peut calculer un écart type sur un milliard d’individus sans que le temps de calcul nous semble notable), mais la qualité parcellaire des données.
La deuxième phrase de la section « Estimateurs » n’a pas de sujet.
Inutile de mettre un lien sur chaque occurence du mot « estimateur ».
La comparaison entre Sn-1 et Sn est peu claire. En particulier, c’est là qu’il faudrait justifier l’emploi du premier estimateur par l’absence de biais de son carré. La section suivante rajoute de la confusion en menant le lecteur vers l’idée que de toute manière, tous ces estimateurs sont convergents. Le choix final de Sn « plus précis en dépit d’un biais plus important » est particulièrement abscons. Quel est donc l’outil de précision utilisé, si ce n’est le biais ? Ambigraphe, le 29 mars 2019 à 13:09 (CET)Répondre
Ah là là, il me semble qu'il ne faut pas être frileux à ce point : les fautes de frappe et de français peuvent se corriger, une formulation peu satisfaisante qui figure d'ailleurs dans la version actuelle « Mais, en statistique, la population étudiée est souvent très importante en nombre, et il n'est pas possible de connaître toutes les valeurs de la caractéristique considérée » peut être réécrite. Les liens bleus trop répétitifs peuvent être supprimés. Le fait que S²n-1 soit sans biais ne figure même pas dans la version actuelle de l'article alors qu'elle est bien présentée dans la version de DoubleClavier. Tu tiques en revanche toi aussi sur ce qui m'avait fait tiquer : la notion de précision. Comme toi je ne voyais que la notion de biais. Le texte de Grenier met en évidence un autre critère : que l'écart quadratique moyen entre l'estimation et la valeur à estimer (moyenne quadratique des erreurs) soit faible. En ce cas, dit Grenier, Sn, malgré son biais, se révèle meilleur que Sn-1.
J'étais donc prête à dire à DoubleClavier de mettre son texte en ligne quitte à ce nous corrigions ensuite les quelques pb de typo ou les imprécisions éventuelles. HB (discuter) 29 mars 2019 à 14:24 (CET)Répondre
C'est aussi la notion de précision donnée par Saporta page 291:
Cependant la théorie de l'estimation ne permet pas de résoudre le problème de la recherche d'estimateurs d'erreur quadratique minimale. On se contentera de rechercher pour une famille de loi donnée/(x; 8) l'estimateur sans biais de e de variance minimale. II reste toutefois possible dans certains cas particuliers de trouver des estimateurs biaisés plus précis que le meilleur estimateur sans biais.
Pour réduire la confusion liée aux différentes possibilités de choix j'ai changé l'ordre des propriétés pour dire 1/ Tous convergent 2/ S_{n-1}^2 est sans biais 3/ S_n est plus précis au sens de l'EQM. La nouvelle version de mon brouillon devrait refleter ce nouvel état. Je push dans l'après midi, motivé notamment par le remaniement en perspective à ne pas polir outre mesure une version qui sera temporaire...
--Doubleclavier (discuter) 1 avril 2019 à 12:05 (CEST)Répondre
Désolé si j’ai pu paraitre « frileux ». J’ai pointé quelques détails à corriger. Ambigraphe, le 29 mars 2019 à 22:14 (CET)Répondre
Le terme de frileux était peut-être excessif. Quoi qu'il en soit merci pour ton accord (par commentaire de diff) pour l'introduction de la version de DoubleClavier. DoubleClavier, à vous la main, sachant que le texte risque, in fine, d'être grandement remanié, compte tenu de la proposition d'Ambigraphe indiquée plus bas. HB (discuter) 31 mars 2019 à 19:32 (CEST)Répondre

Reorganisation modifier

S’agissant d’un article labellisé, et en présence d’autres contributeurs travaillant sur l’article, je propose d’abord en page de discussion une réorganisation du plan.

Par analogie avec l’article « Variance (mathématiques) », on pourrait commencer par l’exposé des formules sur population totale, avec au moins un exemple et la mention des fonctions d’implémentation sur tableur et dans les principaux langages libres (Python, R), voire sur calculatrice. On y rajoute les propriétés de semi-linéarité et d’invariance par translation, et le calcul à partir des écarts types et moyennes de sous-groupes. L’algorithme de calcul se ramène au calcul de la variance, donc on peut s’en dispenser ici. L’historique peut éventuellement se glisser ici.

Pour une variable aléatoire, on redonne les formules issues de celles qui concernent la variance, en particulier l’écart type d’une combinaison linéaire de variables aléatoires. On rappelle que l’existence d’un écart type est subordonné à celle du moment d’ordre 2 et on donne quelques conditions assurant son existence.

On arrive à l’estimation. Il faut distinguer les formules d’estimateur avec moyenne connue de celles avec moyenne inconnue, donner les implémentations associées, montrer que l’absence de biais pour S² ne signifie pas absence de biais pour S, exprimer le biais de S à partir de sa variance, et en déduire un ordre de grandeur de celui-ci. Cela devrait permettre de justifier l’estimateur « à privilégier ». Il faudrait aussi détailler le cas gaussien.

J’aurais tendance à déplacer les applications après ces trois sections, pour pouvoir indiquer dans quel contexte utiliser les différentes formules.

A posteriori, je viens de regarder l’article en anglais, et il correspond grosso modo à ce que je propose ci-dessus. Ambigraphe, le 30 mars 2019 à 10:32 (CET)Répondre

Tu as le champ libre, pour ma part, sur cet article que je suis seulement de loin et que je n'ai pas accompagné pour l'obtention du label (comme probabiliste, je trouve la notion de variance plus prioritaire). Bonne réorganisation pour tout ceux qui vont l'entreprendre. HB (discuter) 31 mars 2019 à 19:56 (CEST)Répondre
Ca m'a l'air bien veux tu ouvrir un brouillon pour qu'on avance dessus ensemble?
BTW: l'étiquette est elle de tutoyer ou de vouvoyer les autres wikipediens?
--Doubleclavier (discuter) 2 avril 2019 à 10:41 (CEST)Répondre
À partir de vendredi je devrais pouvoir rédiger un peu plus facilement. Le tutoiement est plus courant. Ambigraphe, le 2 avril 2019 à 18:49 (CEST)Répondre
Revenir à la page « Écart type ».