Complétude (statistiques)

En statistique, la complétude est une propriété d'une statistique calculée sur un échantillon de données par rapport à un modèle paramétrique de l'ensemble de données. Elle s’oppose au concept de statistique auxiliaire . Alors qu'une statistique auxiliaire ne contient aucune information sur les paramètres du modèle, une statistique complète contient uniquement des informations sur les paramètres et aucune information auxiliaire. Elle est étroitement liée au concept de statistique suffisante qui contient toutes les informations que l'ensemble de données fournit sur les paramètres[1].

Définition

modifier

On considère une variable aléatoire X dont la loi de probabilité appartient à un modèle paramétrique Pθ paramétré par θ.

Soit T une statistique, c'est-à-dire la composition d'une fonction mesurable avec un échantillon aléatoire X1 ,... , Xn.

La statistique T est dite complète pour la distribution de X si, pour toute fonction mesurable g [1]

La statistique T est dite bornée complète pour la loi de X si cette implication est vraie pour toute fonction mesurable g qui est également bornée.

Exemples

modifier

Modèle de Bernoulli

modifier

Le modèle de Bernoulli admet une statistique complète[1]. Soit X un échantillon aléatoire de taille n tel que chaque X i suit la même loi de Bernoulli de paramètre p . Soit T le nombre de 1 observés dans l'échantillon, ce qui revient à . T est une statistique de X qui suit une loi binomiale avec les paramètres (n, p). Si l'espace des paramètres pour p est ]0;1[, alors T est une statistique complète. Pour voir cela, on peut remarquer que

Il apparait également que ni p ni 1 − p sont nuls. Ainsi si et seulement si :

En notant p /(1 − p ) par r, on obtient :

Tout d’abord, on peut voir que le domaine de définition de r est l'ensemble des réels positifs . De plus, E(g(T)) est un polynôme en r et, par conséquent, ne peut être identique à 0 que si tous les coefficients sont 0, c'est-à-dire g(t) = 0 pour tout t .

Il est important de noter que le résultat selon lequel tous les coefficients doivent être nuls a été obtenu en raison de la définition de r. Si l'espace des paramètres avait été fini et avec un nombre d'éléments inférieur ou égal à n, il aurait été possible de résoudre les équations linéaires dans g(t) obtenues en substituant les valeurs de r et d'obtenir des solutions non nulles. Par exemple, si n = 1 et que l’espace des paramètres est {0,5}, une seule observation et une seule valeur de paramètre, T n’est pas complet. En effet, avec la définition :

alors, E(g(T)) = 0 bien que g(t) ne soit pas nul pour t = 0 ni pour t = 1.

Modèle gaussien à variance fixe

modifier

Cet exemple montre que, dans un échantillon X1X2 de taille 2 à partir d'une distribution normale avec une variance connue, la statistique X1 + X2 est complète et suffisante. Supposons que X1, X2 soient des variables aléatoires indépendantes, identiquement distribuées, suivant une loi normale avec d'espérance θ et une variance à 1. La somme

est une statistique complète pour θ .

Pour le montrer, il suffit de démontrer qu'il n'existe pas de fonction non nulle de telle sorte que l'espérance de

reste nul quelle que soit la valeur de θ .

Ce fait peut être perçu comme suit. La loi de probabilité de X 1 + X 2 est une loi normale d'espérance 2 θ et de variance 2. Sa fonction de densité de probabilité dans est donc proportionnel à

L'espérance de g ci-dessus serait donc une constante multipliée par

Après changements de variables, on peut réécrire cette quantité en

k ( θ ) est une fonction qui ne s'annule jamais et

Comme fonction de θ, il s'agit d'une transformée de Laplace bilatérale de h et elle ne peut pas être identiquement nulle à moins que h ne soit nul presque partout[2]. L'exponentielle n'est pas nulle, donc cela ne peut se produire que si g est nul presque partout.

En revanche, la statistique est suffisante mais pas complète. Elle admet un estimateur non nul et sans biais de zéro, à savoir .

La suffisance n’implique pas la complétude

modifier

La plupart des modèles paramétriques disposent d’une statistique suffisante qui n’est pas complète. Ceci est important car le théorème de Lehmann-Scheffé ne peut pas être appliqué à de tels modèles. Galili et Meilijson 2016 [3] proposent l’exemple didactique suivant.

On considère échantillons indépendants de la loi uniforme :

avec est un paramètre de conception connu. Ce modèle est une famille d'échelle (un cas particulier d'un modèle de famille d'échelle de localisation) : mettre à l'échelle les échantillons par un multiplicateur multiplie le paramètre .

Galili et Meilijson montrent que le minimum et le maximum des échantillons constituent ensemble une statistique suffisante : (en utilisant la notation habituelle pour les statistiques d'ordre). En effet, conditionnée à ces deux valeurs, la distribution du reste de l'échantillon est simplement uniforme sur l'intervalle qu'elles définissent : .

Cependant, leur rapport suit une loi qui ne dépend pas de . Cela découle du fait qu’il s’agit d’une famille d’échelles : tout changement d’échelle impacte les deux variables de manière identique. En soustrayant la moyenne à partir de cette distribution, on obtient :

On a ainsi montré qu'il existe une fonction ce qui n'est pas nulle partout mais qui est de moyenne nulle . La paire n’est donc pas complète.

Importance de la complétude

modifier

La notion de complétude a de nombreuses applications en statistique, notamment dans les théorèmes suivants de la statistique mathématique.

Théorème de Lehmann-Scheffé

modifier

L'exhaustivité se produit dans le théorème de Lehmann-Scheffé[1], qui établit que si une statistique est non biaisée, complète et suffisante pour un certain paramètre θ, alors c'est le meilleur estimateur sans biais pour la moyenne pour θ . En d'autres termes, cette statistique a une perte attendue plus faible pour toute fonction de perte convexe ; dans de nombreuses applications pratiques avec la fonction de perte au carré, elle a une erreur quadratique moyenne plus faible parmi tous les estimateurs ayant la même espérance .

Il existe des exemples où, lorsque la statistique minimale suffisante n'est pas complète, plusieurs statistiques alternatives existent pour une estimation non biaisée de θ, tandis que certaines d'entre elles ont une variance plus faible que d'autres[3].

Voir également estimateur sans biais à variance minimale .

Théorème de Basu

modifier

La complétude bornée se produit dans le théorème de Basu[1], qui stipule qu'une statistique qui est à la fois bornée et suffisante est indépendante de toute statistique auxiliaire .

Théorème de Bahadur

modifier

La complétude limitée se produit également dans le théorème de Bahadur. Dans le cas où il existe au moins une statistique minimale suffisante, une statistique qui est suffisante et complète bornée est nécessairement minimale suffisante[4].

Notes et références

modifier
  1. a b c d et e George Casella et Roger W. Berger, Statistical inference, CRC Press, (ISBN 978-1-032-59303-6)
  2. Paul A. Lynn, Electronic Signals and Systems, Macmillan Education UK, , 225–272 p. (ISBN 978-0-333-39164-8, DOI 10.1007/978-1-349-18461-3_6), « The Laplace Transform and the z-transform »
  3. a et b Tal Galili et Isaac Meilijson, « An Example of an Improvable Rao–Blackwell Improvement, Inefficient Maximum Likelihood Estimator, and Unbiased Generalized Bayes Estimator », The American Statistician, vol. 70, no 1,‎ , p. 108–113 (PMID 27499547, PMCID 4960505, DOI 10.1080/00031305.2015.1100683)
  4. Bahadur, « On Unbiased Estimates of Uniformly Minimum Variance », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 18, nos 3/4,‎ , p. 211–224 (ISSN 0036-4452, lire en ligne)