数理统计 Cheat Sheet 2:中心极限定理

  在现实中,有些事件的发生会受到大量相互独立的随机因素的影响,而其中每一个因素对事件的影响又是微弱的,此类事件往往近似服从正态分布。

1. 独立同分布的中心极限定理

  定理一(独立同分布的中心极限定理)设随机变量 $X_1, X_2, \cdots, X_n, \cdots$ 相互独立,服从同一分布,且具有数学期望和方差 $E(X_k) = \mu, \; D(X_k) = \sigma^2 > 0$($k = 1, 2, \cdots$),则随机变量之和 $\sum\limits_{k=1}^{n} X_k$ 的标准化变量

\begin{equation}
Y_n = \frac{\sum\limits_{k=1}^{n} X_k – E\Big(\sum\limits_{k=1}^{n} X_k\Big)}{\sqrt{D\Big(\sum\limits_{k=1}^{n} X_k\Big)}} = \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma}
\end{equation}

的分布函数 $F_n(x)$ 对于任意 $x$ 满足

\begin{align}
\lim_{n \rightarrow \infty} F_n(x) &= \lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} \leq x \Bigg\} \\
&= \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{1}
\end{align}

  定理一说明,均值为 $\mu$,方差为 $\sigma^2$ 的独立同分布随机变量 $X_1, X_2, \cdots, X_n$ 之和 $\sum\limits_{k=1}^{n} X_k$ 的标准化变量,在当 $n$ 充分大时,有

\begin{equation}
\frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} \overset{近似地}{\sim} N(0, 1) \tag{2}
\end{equation}

  在一般情况下,很难求出 $n$ 个随机变量之和 $\sum\limits_{k=1}^{n} X_k$ 的分布函数,$(2)$ 式表明当 $n$ 充分大时,$\Phi(x)$ 可以给出其近似的分布。

  $(2)$ 式等号左边可以写成

\begin{equation}
\frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} = \frac{\frac{1}{n}\sum\limits_{k=1}^{n} X_k – \mu}{\sigma/\sqrt{n}} = \frac{\overline{X} – \mu}{\sigma/\sqrt{n}}
\end{equation}

于是有

\begin{equation}
\frac{\overline{X} – \mu}{\sigma/\sqrt{n}} \overset{近似地}{\sim} N(0, 1) \quad
或 \quad \overline{X} \overset{近似地}{\sim} N(\mu, \sigma^2/n) \tag{3}
\end{equation}

  $(3)$ 式说明,当 $n$ 充分大时,均值为 $\mu$、方差为 $\sigma^2 > 0$ 的独立同分布随机变量 $X_1, X_2, \cdots, X_n$ 的算术平均 $\overline{X} = \frac{1}{n} \sum\limits_{k=1}^{n} X_k$ 近似地服从均值为 $\mu$、方差为 $\sigma^2/n$ 的正态分布。这是数理统计中大样本统计推断的基础。

2. 独立、非同分布的中心极限定理

  定理二(李雅普诺夫(Lyapunov)定理)设随机变量 $X_1, X_2, \cdots, X_n, \cdots$ 相互独立,它们具有数学期望和方差

\begin{equation}
E(X_k) = \mu_k, \quad D(X_k) = \sigma_k^2 > 0, \quad k = 1, 2, \cdots
\end{equation}

\begin{equation}
B_n^2 = \sum\limits_{k=1}^{n} \sigma_k^2
\end{equation}

若存在整数 $\delta$,使得当 $n \rightarrow \infty$ 时,

\begin{equation}
\frac{1}{B_n^{2 + \delta}} \sum_{k=1}^n E\{|X_k – \mu_k|^{2 + \delta}\} \rightarrow 0
\end{equation}

则随机变量之和 $\sum\limits_{k=1}^{n} X_k$ 的标准化变量

\begin{equation}
Z_n = \frac{\sum\limits_{k=1}^{n} X_k – E\Big(\sum\limits_{k=1}^{n} X_k\Big)}{\sqrt{D\Big(\sum\limits_{k=1}^{n} X_k\Big)}} = \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n}
\end{equation}

的分布函数 $F_n(x)$ 对于任意 $x$,满足

\begin{align}
\lim_{n \rightarrow \infty} F_n(x) &= \lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n} \leq x \Bigg\} \\
&= \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{4}
\end{align}

  定理二表明,在定理的条件下,随机变量

\begin{equation}
Z_n = \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n}
\end{equation}

当 $n$ 很大时,近似服从正态分布 $N(0, 1)$。由此,当 $n$ 很大时,$\sum\limits_{k=1}^{n} X_k = B_n Z_n + \sum\limits_{k=1}^{n} \mu_k$ 近似服从正态分布 $N(\sum\limits_{k=1}^{n} \mu_k, B_n^2)$。

  注意定理二并没有要求各个随机变量 $X_k$($k = 1, 2, \cdots$)服从什么分布,只要它们满足定理的条件,那么当 $n$ 很大时,它们的和 $\sum\limits_{k=1}^{n} X_k$ 就近似服从正态分布。

  很多时候,我们所关心的问题受到多个独立随机因素的影响,即所研究的随机变量可以表示成多个独立的随机变量之和,如任意时刻一个城市的耗电量是大量用户耗电量之和、一个物理实验的测量误差由许多微小误差合成,它们往往近似服从正态分布。也正因此,正态随机变量在概率论中占有重要地位。

3. 独立二项分布的中心极限定理

  在定理一中,假设 $X_k$ 均服从参数为 $p$ 的(0-1)分布,此时有 $\mu = p$,$\sigma^2 = p(1 – p)$($k = 1, 2, \cdots$),代入式 $(1)$,可得

\begin{equation}
\lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – np}{\sqrt{np(1 – p)}} \leq x \Bigg\} = \Phi(x)
\end{equation}

注意到 $\sum\limits_{k=1}^{n} X_k$ 服从参数为 $(n, p)$ 的二项分布,于是有:

  定理三(棣莫弗—拉普拉斯(De Moivre – Laplace)定理)设随机变量 $\eta_n$($n = 1, 2, \cdots$)服从参数为 $n, p$($0 < p < 1$)的二项分布,则对于任意 $x$,有

\begin{equation}
\lim_{n \rightarrow \infty} P\bigg\{ \frac{\eta_n – np}{\sqrt{np(1 – p)}} \leq x \bigg\} = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{5}
\end{equation}

  定理三是定理一的特殊情况。它表明正态分布是二项分布的极限分布,当 $n$ 充分大时,可以利用式 $(5)$ 来计算二项分布的概率。