Théorème du codage de source

Le théorème du codage de source (ou premier théorème de Shannon, ou encore théorème de codage sans bruit) est un théorème en théorie de l'information, énoncé par Claude Shannon en 1948, qui énonce la limite théorique pour la compression d'une source.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

L'article doit être débarrassé d'une partie de son jargon (septembre 2020).

Sa qualité peut être largement améliorée en utilisant un vocabulaire plus directement compréhensible. Discutez des points à améliorer en page de discussion.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (septembre 2020).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Cet article est une ébauche concernant l’informatique et l’informatique théorique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Le théorème montre que l'on ne peut pas compresser une chaine de variables aléatoires i.i.d, quand la longueur de celle-ci tend vers l'infini, de telle sorte à ce que la longueur moyenne des codes des variables soit inférieure à l'entropie de la variable source. Cependant, on peut avoir une compression avec une longueur moyenne de code arbitrairement proche de l'entropie lorsque la longueur de la chaîne tend vers l'infini.

Enoncés du théorème

Théorème du codage de source

Soit une variable aléatoire $X$ , posons $X^{n}=X_{1}X_{2}...X_{n}$ la suite de $n$ variables aléatoires i.i.d de loi $X$ et en notant $L(Y,\delta )$ la longueur minimale d'un code pour $Y$ à erreur de probabilité au plus $\delta$ .

Le théorème énonce que $\lim _{n\rightarrow \infty }{\frac {L(X^{n},\delta )}{n}}=H(X)$ , c'est-à-dire, lorsque $n$ tend vers l'infini, que $X^{n}$ ne peut être compressée en moins de $n\ H(X)$ bits sans perte d'information presque certaine. On peut en revanche trouver un code à probabilité d'erreur négligeable approchant cette borne d'arbitrairement près.

Théorème du codage de source pour les codes par symboles

On considère une suite de $n$ symboles provenant d'une source $a$ -aire stationnaire (suite de variables i.i.d), le théorème se simplifie en: ${\frac {H(X)}{log_{2}(a)}}\leq \mathbb {E} [l(X)]<{\frac {H(X)}{log_{2}(a)}}+1$ avec $l(X)$ la longueur d'un code optimal pour $X$ .

Preuves

Preuve du théorème de codage de source

Soit donc $X$ une variable aléatoire, notons $X^{n}=X_{1}X_{2}...X_{n}$ la suite de $n$ réalisations différentes de $X$ ( $(X_{i})_{i\leq n}$ suivent la même loi que $X$ et sont indépendantes). Le théorème affirme que $\lim _{n\rightarrow \infty }{\frac {L(X^{n},\delta )}{n}}=H(X)$ , encadrons donc cette limite par deux inégalités.

Preuve d'atteignabilité

Pour $n\in \mathbb {N}$ et $\epsilon >0$ , on définit un ensemble de réalisations typiques de $X^{n}$ ainsi : $S_{\delta }=\{x^{n}\in A^{n}/\ \mathbb {P} (X^{n}=x^{n})\geq 2^{-n(H(X)+\epsilon )}\}$ .

On a alors, avec $h_{X}(x)=-\log(p(X=x))$ et $H$ l'entropie :

${\begin{aligned}\mathbb {P} (X_{1}...X_{n}\in S_{\delta })&=\mathbb {P} _{X}{\{\mathbb {P} (X^{n}=x^{n})\geq 2^{-n(H(X)+\epsilon )}\}}\\&=\mathbb {P} _{X}\{-\log {\mathbb {P} (X^{n}=x^{n})}\leq n(H(X)+\epsilon )\}\\&=\mathbb {P} _{X}\{-\log(\mathbb {P} (X_{1}=x_{1})...\mathbb {P} (X_{n}=x_{n}))\leq n(H(X)+\epsilon )\}\\&=\mathbb {P} _{X}\{\sum _{i=1}^{n}h_{X}(X_{i})\leq n(H(X)+\epsilon )\}\\&=\mathbb {P} _{X}\{{\frac {1}{n}}\sum _{i=1}^{n}h_{X}(X)\leq H(X)+\epsilon \}\\\end{aligned}}$

Puisque $H(X)=E(h_{X}(X))$ , la loi faible des grands nombres nous assure $\lim _{n\rightarrow \infty }\mathbb {P} \{X_{1}...X_{n}\in S_{\delta }\}=1$ .

Pour $n$ assez grand, $\mathbb {P} \{X_{1}...X_{n}\in S_{\delta }\}\geq 1-\delta$ et comme $|S_{\delta }|\leq 2^{n(H(X)+\epsilon )}$ on peut coder cet ensemble avec moins de $n(H(X)+\epsilon )$ bits.

Ainsi ${\frac {L(X^{n},\delta )}{n}}\leq H(X)+\epsilon$ pour tout $\epsilon$ et $n$ correspondant assez grand, donc $\lim _{n\rightarrow \infty }{\frac {L(X^{n},\delta )}{n}}\leq H(X)$ .

Preuve inverse

Pour $\epsilon >0$ , soit $S\subseteq A^{n}$ tel que $|S|\leq 2^{n(H(X)-\epsilon )}$ , posons $S_{s}$ et $S_{b}$ tels que $S=S_{s}\cup S_{b}$ de cette façon :

${\begin{aligned}&S_{s}=S\cap \{x^{n}|\ \mathbb {P} (X=x^{n})\leq 2^{-n(H(X)-\epsilon /2)}\}\\&S_{b}=S\cap \{x^{n}|\ \mathbb {P} (X=x^{n})>2^{-n(H(X)-\epsilon /2)}\}\end{aligned}}$

Maintenant,

${\begin{aligned}\mathbb {P} (X_{1}...X_{n}\in S)&=\mathbb {P} (X_{1}...X_{n}\in S_{s})+\mathbb {P} (X_{1}...X_{n}\in S_{b})\\&\leq |S|2^{-n(H(X)-\epsilon /2)}+\mathbb {P} \{\mathbb {P} (X^{n}=X_{1}...X_{n})>2^{-n(H(X)-\epsilon /2)}\}\\&\leq 2^{-n\epsilon /2}+\mathbb {P} \{\sum _{i=1}^{n}h_{X}(X_{i})<n(H(X)-\epsilon /2)\}\\&\leq 2^{-n\epsilon /2}+\mathbb {P} \{{\frac {1}{n}}\sum _{i=1}^{n}h_{X}(X)<(H(X)-\epsilon /2)\}\end{aligned}}$

Le premier terme tendant vers 0, et par la loi faible des grands nombres le second aussi, on a donc $\lim _{n\rightarrow \infty }\mathbb {P} (X_{1}...X_{n}\in S)=0$ donc la probabilité de pouvoir encoder $X^{n}$ avec $n(H(X)-\epsilon )$ caractères ou moins tend vers 0. Ainsi, à partir d'un $n_{\delta }$ assez grand, elle passera en dessous de $\delta$ et donc pour tout $n>n_{\delta }$ on aura ${\frac {L(X^{n},\delta )}{n}}\geq H(X)-\epsilon$ .

Comme ceci est vrai pour tout $\epsilon$ : $\lim _{n\rightarrow \infty }{\frac {L(X^{n},\delta )}{n}}\geq H(X)$ , ce qui achève d'encadrer la limite souhaitée.

Preuve pour les codes par symboles

Soit $X$ une variable aléatoire et $l$ un code optimal pour $X$ (c'est-à-dire d'espérance de longueur minimale).

Pour tout $i\leq n$ , avec $l(x_{i})$ la longueur du code de $x_{i}$ , on définit $q_{i}={\frac {a^{-l(x_{i})}}{C}}$ avec $a$ la taille de l'alphabet sur lequel X prend des valeurs et $C$ une constante de normalisation telle que $\sum q_{i}=1$ . Alors tout d'abord

${\begin{aligned}H(X)&=-\sum _{i=1}^{n}p_{i}\log _{2}p_{i}\\&\leq -\sum _{i=1}^{n}p_{i}\log _{2}q_{i}\\\end{aligned}}$

d'après l'Inégalité de Gibbs.

${\begin{aligned}H(X)&\leq -\sum _{i=1}^{n}p_{i}\log _{2}a^{-l(x_{i})}+\sum _{i=1}^{n}p_{i}\log _{2}C\\&=-\sum _{i=1}^{n}p_{i}\log _{2}a^{-l(x_{i})}+\log _{2}C\\&\leq -\sum _{i=1}^{n}-l(x_{i})p_{i}\log _{2}a\\&\leq \mathbb {E} [l(X)]\log _{2}a\\\end{aligned}}$

d'après l'Inégalité de Kraft. On a donc bien la borne inférieure.

Comme $C=\sum a^{-l(x_{i})}\leq 1$ , on a $\log {C}\leq 0.$

On peut tenter de fixer $l(x_{i})=\lceil -\log _{a}p_{i}\rceil$ pour avoir $-\log _{a}p_{i}\leq l(x_{i})<-\log _{a}p_{i}+1$ .

Ensuite, $a^{-l(x_{i})}\leq p_{i}$ donc $\sum a^{-l(x_{i})}\leq 1$ et l'inégalité de Kraft nous donne l'existence d'un code préfixe pour $X$ avec ces longueurs de mots là.

Finalement,

${\begin{aligned}E[l(X)]&=\sum p_{i}l(x_{i})\\&<\sum p_{i}(-\log _{a}(p_{i})+1)\\&=\sum -p_{i}{\frac {log_{2}(p_{i})}{log_{2}(a)}}+1\\&={\frac {H(X)}{log_{2}(a)}}+1\end{aligned}}$

Ce qui nous donne la borne supérieure et achève la preuve.

Voir aussi

Bibliographie

C.E. Shannon, "A Mathematical Theory of Communication", Bell System Technical Journal, vol. 27, pp. 379-423, July 1948.
O. Fawzi, Cours de théorie de l'information, ENS de Lyon, Automne 2018.
D. MacKay, Information Theory, Inference and Learning Algorithms, Cambridge University Press, 2005, (ISBN 0-521-64298-1).