On souhaite estimer une quantité G, qui s'exprime sous la forme d'une intégrale :
On considère ici une intégration en dimension 1, mais on peut généraliser à une dimension quelconque.
Le principe de base des méthodes de Monte-Carlo est de voir l'intégrale précédente comme
où X est une variable aléatoire uniformément distribuée sur [a ; b] et
sa densité.
Si on dispose d'un échantillon
, indépendant et identiquement distribué (i.i.d.) selon
, on peut estimer G par :
Il s'agit d'un estimateur de G non-biaisé (c'est-à-dire que
) et consistant (d'après la loi des grands nombres). Sa variance est :
avec
la variance de la variable aléatoire
L'erreur commise est alors une valeur aléatoire, suivant approximativement une loi normale centrée et de variance
.
L'idée principale de la stratification est de calculer l'intégrale sur une partition de l'intervalle [a ; b], qu'on précisera plus tard :
![{\displaystyle G=\int _{a}^{b}g(x)\,{\mbox{d}}x=\sum _{k=0}^{m}\int _{a_{k}}^{a_{k+1}}g(x)\,{\mbox{d}}x,\quad a=a_{0}<a_{1}<\ldots <a_{m}<a_{m+1}=b.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5adb840dd065b6c48d31eb18ceac5505a597fe94)
Ainsi, l'intégrale se réécrit comme une somme de probabilités conditionnelles :
![{\displaystyle G=(b-a)\,\mathbb {E} (g(X))=(b-a)\,\sum _{k=0}^{m}\mathbb {E} (g(X\mid X\in [a_{k},a_{k+1}]))\mathbb {P} (X\in [a_{k},a_{k+1}]).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f482eacf94d134cd334371b848766fa85e53c05c)
En supposant que chaque loi conditionnelle de X soit simulable, et que chaque valeur
soit connue, on peut donc calculer chaque sous-intégrale par une méthode de Monte-Carlo à Nk tirages, soit :
![{\displaystyle \forall k\in \{0;m\},G_{k}=\mathbb {E} (g(X\mid X\in [a_{k},a_{k+1}]))\approx {\widehat {G_{k}}}={\frac {1}{N_{k}}}\sum _{j=0}^{N_{k}}g(X_{j}^{(i)}).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9c0636848d8df34c396a2850831ac28b93656b9b)
On a ainsi une erreur égale à
![{\displaystyle e=G-\sum _{k=0}^{m}p_{k}{\widehat {G_{k}}}=\sum _{k=0}^{m}p_{k}(G_{k}-{\widehat {G_{k}}}).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/33d59871c617ae5624271dfd01965f9918538d9f)
Pour de grands tirages, chaque terme de l'erreur peut être approchée par une loi normale centrée. En observant que :
![{\displaystyle {\begin{aligned}\mathrm {Var} (g(X)\mid X\in [a_{k},a_{k+1}])&=\mathbb {E} \left(\left[g(X)-\mathbb {E} \left(g(X)\mid X\in [a_{k},a_{k+1}]\right)\right]^{2}\mid X\in [a_{k},a_{k+1}]\right)\\&={\frac {1}{p_{k}}}\mathbb {E} \left(\left[g(X)-\mathbb {E} \left(g(X)\mid X\in [a_{k},a_{k+1}]\right)\right]^{2}1\!\!1_{[a_{k},a_{k+1}]}(X)\right)\\&={\frac {1}{p_{k}}}\mathbb {E} \left[g(X)^{2}1\!\!1_{[a_{k},a_{k+1}]}(X)\right]-{\frac {1}{p_{k}^{2}}}\mathbb {E} \left[g(X)1\!\!1_{[a_{k},a_{k+1}]}(X)\right]^{2},\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7bbbea37b3a0b4d75dcc272cca0c7f09dfa583d5)
on peut en déduire que la variance de l'erreur approche
.
Il suffit de vérifier qu'on a bien l'inégalité
pour conclure à l'efficacité de la technique de réduction de la variance.
L'objectif est de réduire le nombre de tirages
.
Une méthode simple est la stratification uniforme, réalisée en s'assurant que
.
On peut également chercher à optimiser la stratification en minimisant la variance conditionnelle. Une étude de la variance montre qu'elle atteint son minimum pour
![{\displaystyle \forall k\in \{0;m\},N_{k}=N{\frac {p_{k}\sigma _{k}}{\sum _{l=0}^{m}p_{l}\sigma _{l}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3c57d4cb2439c9a23076a08fa79e09e52934089a)
soit un minimum égal à