2017年9月13日星期三

Rappel de probabilité (4) : convergence en loi et TCL

On continue de réviser la base de probabilité et dans cette partie, on veut attaquer le problème de convergence en loi. Peut-être il y déjà un poste sur la convergence dans un espace métrique, mais le TCL et la fonction caractéristique a quand même des intérêts.

Convergence en loi dans $\mathbb{R}$

La définition de convergence en loi dans la situation $\mathbb{R}$ est assez simple et elle est définie par
$$ F_n(x) \rightarrow F(x) $$
pour tous les points de continuité. Un peu d'analyse nous dit que cette convergence est uniforme. Il y a plusieurs façons de caractériser la convergence. Par exemple, on dit $\mu_n \Rightarrow \mu$ si pour toute la fonction continuée et bornée, on a
$$\mu_n(f) \rightarrow \mu(f)$$

Il y a d'autre critère comme l'ensemble ouvert et fermé. 
$$\forall O \text{ouvert}, \liminf \mathbb{P}(X_n \in O) \geq \mathbb{P}(X \in O)$$
Une méthode de mémoriser l'inégalité est une suite de Dirac masse qui converge vers un point dans l’adhérence. La version fermée et bord est aussi facile à décrire.

On remarque dans la démonstration de $\mathbb{R}$, la représentation est assez directe i.e si $X_n \Rightarrow X$, on peut les tous mettre dans un espace en commun tel que $X_n \rightarrow X$ presque sûrement.

D'autre cas spécifique, comme le théorème de Scheffé, qui nous dit si la variable aléatoire a une densité $f_n$ et $f_n \rightarrow f$ ponctuellement, on a aussi la convergence car l'intégration de densité est toujours 1.

Tension

On liste la notation de tension dehors car elle a un rôle très important et peut être généralisé dans d'autre espace. Gros-moto, une suite est tendue si et seulement $\forall \epsilon > 0,$ il existe un compact $K_{\epsilon}$ tel que
$$\sup_n \mathbb{P}(X_n \notin K_{\epsilon}) < \epsilon$$.

L'intérêt de cette propriété est que une suite de mesure est pré-compact si et seulement elle est tendue. Donc, montrer la tension est suivant une partie important de convergence en loi. Une stratégie standard est l'argument "tension + convergence de loi marginal".

Fonction caractéristique 

On utilise aussi la fonction caractéristique d'analyser la convergence faible de variable aléatoire. La raison profonde est l'analyse de Fourier car la fonction caractéristique est la transformée de Fourier d'une mesure. Dans le livre de Durret, on voit beaucoup d'application de la fonction caractéristique. En fait, une formule utile est
$$ \frac{1}{2}(\mu(a) + \mu(b)) + (\mu((a,b)) = \frac{1}{2\pi} \lim_{T \rightarrow \infty} \int_{-T}^{T} \frac{e^{-ita}-e^{-itb}}{it}\phi(t) dt$$

Dans le cas où la fonction caractéristique est intégrable et donc la mesure a une densité, on peut retrouver la densité par la transformée inversée.
$$ f(x) = \frac{1}{2\pi} \int e^{-itx} \phi(t) dt $$

Combiner la propriété de tension et la propriété de fonction caractéristique, si la fonction caractéristique d'une suite de mesure converge, il a une convergence qui s'appelle la convergence vague. i.e la fonction de répartition n'est pas vraiment une fonction de répartition car l'information à limite est perdu. Cependant, si cette fonction a une continuité à 0, la suite a tension donc elle converge vers une mesure.

TCL, Poisson et loi stable

Finalement, on parle un peu du théorème de TCL et loi stable. La démonstration de TCL est classique est directe par la fonction caractéristique, mais on devrait savoir que c'est juste une situation très idéale. En fait, la convergence en loi est un peu robust, dans le sens que ce théorème est correct sous la condition plus faible. Pour le TCL c'est le théorème de Lendeberg-Feller.

La convergence vers une loi de Poisson est souvent appelée "le convergence de petite nombre" car il approche la probabilité d'événement rare. On peut aussi mesurer la vitesse de convergence en distance total - qui est une bonne distance de convergence en loi pour l'état discret.  

En concernant la loi stable, c'est une situation que variance n'est pas fini. Donc on fait une normalisation différente. Les variables $X$ étudiées dans ce problème a une vitesse de décroissance comme $x^{- \alpha}, 0 < \alpha < 2$. Sa limite $Y$ a une propriété que $\forall n, \exists a_n, b_n$ tel que
$$\frac{\sum_{k=1}^n Y_k - b_n}{a_n} \overset{d}{=} Y$$. Pour la paramètre $\alpha$, la normalisation est $n^{\frac{1}{\alpha}}$.

Dans d'autre espace polonais, certaine définition est aussi bien définie mais certaine ne marche plus, surtout ceux qui utilisent la fonction caractéristique, qui demande l'existence de transformée de Fourier.

 

2017年9月1日星期五

Rappel de probabilité (3) : le théorème de grand nombre

La théorème de grand nombre est une théorie très importante dans probabilité, mais sa démonstration peut être assez technique sous différentes conditions. Pour la suite, on raconte quelques histoires sur le théorème de grand nombre.

La théorie plus classique suppose que $\{X_i\}$ sont i.i.d et sa variance est finie. Sous cette condition, on a inégalité de Markov
$$
 \mathbb{P}[\frac{S_n}{n} > \epsilon] <  \frac{Var(X)}{n \epsilon^2}
$$
qui suffit d’entraîner la loi faible. Concernant la loi forte, on choisit une sous-suite et montre la convergence p.s grâce au lemme de Borel-Cantalli. Puis on contrôle les erreurs entre eux. Cette technique est la base de beaucoup de démonstration.

Pour aller plus loin, une direction est supprimer la condition de variance. Dans ce cas, il faut utiliser la technique de troncature comme
$$
Y_n = X_n \mathbb{I} _{X_n < n}
$$
Cette technique a des propriétés incroyable mais pas évidant :
(1) Avec probabilité 1, il y a que nombre fini de $X_n \neq Y_n$
(2) $\sum_n [Var(Y_n / n)] < \infty$

La première propriété est très utile, il nous dit que l'étude de convergence se réduit comme le comportement de $Y_n$. La deuxième a beaucoup d'application. Soit on suit la même chemin que la méthode classique : montre une convergence de sous-suite et contrôle les erreurs entre eux. Soit on utilise la méthode de Kolmogorov.

La méthode de Kolmogorov est en fait, utiliser l'idée de martingale. En utilisant la convergence de martingale $L^2$, on montre p.s $\sum_n \frac{Y_n}{n}$ converge. Puis, un lemme de Kronecker - un lemme pure d'analyse maths, qui nous dit que dans cette situation,  $\frac{\sum_{k=1}^n Y_k}{n}$ converges.

La situation sans $L^1$ est aussi possible d'étudier mais cela dépend de démonstration. La loi faible peut se généraliser dans le cas de variable aléatoire corrélée ou $L^1$ faible. Mais quelques fois, on essaie aussi d'autre normalisation.