Lemme de symétrisation

Le lemme de symétrisation (ou lemme de symétrisation de Vapnik-Tchervonenkis) est un résultat en théorie de probabilités proposée par Vladimir Vapnik et Alexeï Tchervonenkis. Au lieu de comparer la mesure empirique avec la mesure théorique (qui est souvent non connue) ce lemme permet de comparer cette mesure avec une copie indépendante d'elle-même.

Énoncé modifier

Il existe différents énoncés de ce lemme : Pollard utilise la version de la symétrisation avec des processus stochastiques[1] mais il existe des versions faisant intervenir l'erreur de généralisation d'un échantillon[2]. Soit des processus stochastiques indépendants indexés par un ensemble . Supposons qu'il existe des constantes tel que

Alors,

En particulier en posant

  • est la mesure empirique et la loi des variables aléatoires indépendantes et identiquement distribuées sur laquelle la mesure empirique est basée, i.e.
    et avec la fonction de répartition de Y ;
  • est la mesure empirique basée sur une copie des variables précédentes ;
  • ,

on obtient que

Démonstration modifier

On note un élément de pour lequel (i.e. ). Puisqu'il dépend de est indépendant de et donc conditionnellement à il agit comme un élément de fixé :

En intégrant :

Références modifier

  1. (en) David Pollard, Convergence of stochastic processes, Springer Series in Statistics, p. 14
  2. Massih-Reza Amini, Apprentissage machine de la théorie à la pratique, Eyrolles, p. 16-17