概率论 Cheat Sheet 28:中心极限定理和强大数定律

1. 中心极限定理

  中心极限定理 设 $X_1, X_2, \cdots$ 为独立同分布的随机变量序列,其公共分布的均值为 $\mu$,方差为 $\sigma^2$。则随机变量

\begin{equation}
\frac{X_1 + \cdots + X_n – n\mu}{\sigma \sqrt{n}} \tag{1}
\end{equation}

的分布当 $n \rightarrow \infty$ 时趋向于标准正态分布,即对任何 $-\infty < a < \infty$,有

\begin{equation}
P\Big\{ \frac{X_1 + \cdots + X_n – n\mu}{\sigma \sqrt{n}} \leq a \Big\} \rightarrow \frac{1}{\sqrt{2\pi}} \int_{-\infty}^a e^{-x^2/2} \mathrm{d}x \qquad n \rightarrow \infty \tag{2}
\end{equation}

  中心极限定理说明大量独立随机变量的和近似地服从正态分布。中心极限定理不仅提供了计算独立随机变量和的简便方法,同时也帮助解释了现实世界中许多实际的总体分布的频率曲线呈现钟形曲线(即正态密度)的原因。

  引理 设 $Z_1, Z_2, \cdots$ 为一公共分布函数为 $F_{Z_n}$ 的随机变量序列,相应的矩母函数为 $M_{Z_n}$($n \geq 1$)。又设 $Z$ 的分布为 $F_Z$,矩母函数为 $M_Z$,若 $M_{Z_n}(t) \rightarrow M_Z(t)$ 对一切 $t$ 成立,则 $F_{Z_n}(t) \rightarrow F_Z(t)$ 对于 $F_Z(t)$ 的所有连续点成立。

  若 $Z$ 为标准正态分布,则 $M_Z(t) = e^{t^2/2}$,由上述引理可知,若当 $n \rightarrow \infty$ 时 $M_{Z_n}(t) \rightarrow e^{t^2/2}$,则当 $n \rightarrow \infty$ 时 $F_{Z_n}(t) \rightarrow \Phi(t)$。

2. 强大数定律

  强大数定律 设 $X_1, X_2, \cdots$ 为一独立同分布的随机变量序列,其公共均值 $\mu = E[X]$ 有限,则下式以概率 $1$ 成立

\begin{equation}
\frac{X_1 + X_2 + \cdots + X_n}{n} \rightarrow \mu \qquad n \rightarrow \infty \tag{3}
\end{equation}

  强大数定律说明独立同分布的随机变量序列的均值以概率 $1$ 收敛到分布的均值。作为强大数定律的一个应用,设有一独立重复试验序列,令 $E$ 为某一事件,$P(E)$ 为事件 $E$ 发生的概率,又令

\begin{equation}
X_i = \begin{cases} 1 & E \; 在第 \; i \; 次试验中发生 \\
0 & E \; 在第 \; i \; 次试验中不发生\end{cases}
\end{equation}

由强大数定律,以概率 $1$ 有

\begin{equation}
\frac{X_1 + X_2 + \cdots + X_n}{n} \rightarrow E[X] = P(E) \tag{4}
\end{equation}

因为 $X_1 + \cdots + X_n$ 表示在前 $n$ 次试验中事件 $E$ 发生的次数,因此式 $(4)$ 说明事件 $E$ 在前 $n$ 次试验中发生的频率以概率 $1$ 收敛到它的概率 $P(E)$。

3. 其他不等式

  有时候我们希望得到概率的上界,形如 $P\{X – \mu \geq a\}$,其中 $a$ 为一正数,均值 $\mu = E[X]$ 和方差 $\sigma^2 = \mathrm{Var}(X)$ 已知。因为 $X – \mu \geq a$ 蕴含 $|X – \mu| \geq a$,由切比雪夫不等式,有

\begin{equation}
P\{X – \mu \geq a\} \leq P\{|X – \mu| \geq a\} \leq \frac{\sigma^2}{a^2} \qquad a > 0
\end{equation}

然而,下面的命题指出,还可以得到更准确的上界

  单边的切比雪夫不等式 设 $X$ 具有 $0$ 均值和有限方差 $\sigma^2$,则对任意 $a \geq 0$,有

\begin{equation}
P\{X \geq a\} \leq \frac{\sigma^2}{\sigma^2 + a^2} \tag{5}
\end{equation}

  推论 若 $E[X] = \mu$,$\mathrm{Var}(X) = \sigma^2$,则对于 $a > 0$,下列不等式成立

\begin{equation}
P\{X \geq \mu + a\} \leq \frac{\sigma^2}{\sigma^2 + a^2} \tag{6}
\end{equation}

  当随机变量 $X$ 的矩母函数为已知时,我们可以得到更加有效的 $P\{X \geq a\}$ 的上界。令

\begin{equation}
M(t) = E[e^{tX}]
\end{equation}

为随机变量 $X$ 的矩母函数,则对于 $t > 0$,有

\begin{equation}
P\{X \geq a\} = P\{e^{tX} \geq e^{ta}\} \leq E[e^{tX}]e^{-ta} \qquad 利用马尔可夫不等式
\end{equation}

类似地,对于 $t < 0$,有

\begin{equation}
P\{X \leq a\} = P\{e^{tX} \geq e^{ta}\} \leq E[e^{tX}]e^{-ta}
\end{equation}

于是有以下命题成立:

  切尔诺夫界

\begin{equation}
P\{X \geq a\} \leq E[e^{tX}]e^{-ta} \qquad 对一切 \; t > 0 \tag{7}
\end{equation}

\begin{equation}
P\{X \leq a\} \leq E[e^{tX}]e^{-ta} \qquad 对一切 \; t < 0 \tag{8}
\end{equation}

  由于切尔诺夫界对 $t$ 为正或为负都成立,可以通过找到使 $e^{-ta}M(t)$ 达到最小的 $t$ 值,来获得 $P\{X \geq a\}$ 的最佳上界。

  定义 对于一个二次可微的实值函数 $f(x)$,若 $f^{\prime\prime}(x) \geq 0$ 对一切 $x$ 成立,则称 $f(x)$ 为凸的。反之,若 $f^{\prime\prime}(x) \leq 0$ 对一切 $x$ 成立,则称 $f(x)$ 为凹的。

  例如 $f(x) = x^2$,$f(x) = e^{ax}$,$f(x) = -x^{\frac{1}{n}}$($x \geq 0$)都是凸函数。若 $f(x)$ 为凸函数,则 $g(x) = -f(x)$ 就是凹函数,反之亦然。

  詹森不等式 若 $f(x)$ 时凸函数,且 $E[X]$ 存在且有限,则

\begin{equation}
E[f(x)] \geq f(E[X]) \tag{9}
\end{equation}