数理统计 Cheat Sheet 2:中心极限定理
在现实中,有些事件的发生会受到大量相互独立的随机因素的影响,而其中每一个因素对事件的影响又是微弱的,此类事件往往近似服从正态分布。
Contents [show]
1. 独立同分布的中心极限定理
定理一(独立同分布的中心极限定理)设随机变量 X1,X2,⋯,Xn,⋯ 相互独立,服从同一分布,且具有数学期望和方差 E(Xk)=μ,D(Xk)=σ2>0(k=1,2,⋯),则随机变量之和 n∑k=1Xk 的标准化变量
\begin{equation} Y_n = \frac{\sum\limits_{k=1}^{n} X_k – E\Big(\sum\limits_{k=1}^{n} X_k\Big)}{\sqrt{D\Big(\sum\limits_{k=1}^{n} X_k\Big)}} = \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} \end{equation}
的分布函数 F_n(x) 对于任意 x 满足
\begin{align} \lim_{n \rightarrow \infty} F_n(x) &= \lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} \leq x \Bigg\} \\ &= \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{1} \end{align}
定理一说明,均值为 \mu,方差为 \sigma^2 的独立同分布随机变量 X_1, X_2, \cdots, X_n 之和 \sum\limits_{k=1}^{n} X_k 的标准化变量,在当 n 充分大时,有
\begin{equation} \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} \overset{近似地}{\sim} N(0, 1) \tag{2} \end{equation}
在一般情况下,很难求出 n 个随机变量之和 \sum\limits_{k=1}^{n} X_k 的分布函数,(2) 式表明当 n 充分大时,\Phi(x) 可以给出其近似的分布。
(2) 式等号左边可以写成
\begin{equation} \frac{\sum\limits_{k=1}^{n} X_k – n\mu}{\sqrt{n}\sigma} = \frac{\frac{1}{n}\sum\limits_{k=1}^{n} X_k – \mu}{\sigma/\sqrt{n}} = \frac{\overline{X} – \mu}{\sigma/\sqrt{n}} \end{equation}
于是有
\begin{equation} \frac{\overline{X} – \mu}{\sigma/\sqrt{n}} \overset{近似地}{\sim} N(0, 1) \quad 或 \quad \overline{X} \overset{近似地}{\sim} N(\mu, \sigma^2/n) \tag{3} \end{equation}
(3) 式说明,当 n 充分大时,均值为 \mu、方差为 \sigma^2 > 0 的独立同分布随机变量 X_1, X_2, \cdots, X_n 的算术平均 \overline{X} = \frac{1}{n} \sum\limits_{k=1}^{n} X_k 近似地服从均值为 \mu、方差为 \sigma^2/n 的正态分布。这是数理统计中大样本统计推断的基础。
2. 独立、非同分布的中心极限定理
定理二(李雅普诺夫(Lyapunov)定理)设随机变量 X_1, X_2, \cdots, X_n, \cdots 相互独立,它们具有数学期望和方差
\begin{equation} E(X_k) = \mu_k, \quad D(X_k) = \sigma_k^2 > 0, \quad k = 1, 2, \cdots \end{equation}
记
\begin{equation} B_n^2 = \sum\limits_{k=1}^{n} \sigma_k^2 \end{equation}
若存在整数 \delta,使得当 n \rightarrow \infty 时,
\begin{equation} \frac{1}{B_n^{2 + \delta}} \sum_{k=1}^n E\{|X_k – \mu_k|^{2 + \delta}\} \rightarrow 0 \end{equation}
则随机变量之和 \sum\limits_{k=1}^{n} X_k 的标准化变量
\begin{equation} Z_n = \frac{\sum\limits_{k=1}^{n} X_k – E\Big(\sum\limits_{k=1}^{n} X_k\Big)}{\sqrt{D\Big(\sum\limits_{k=1}^{n} X_k\Big)}} = \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n} \end{equation}
的分布函数 F_n(x) 对于任意 x,满足
\begin{align} \lim_{n \rightarrow \infty} F_n(x) &= \lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n} \leq x \Bigg\} \\ &= \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{4} \end{align}
定理二表明,在定理的条件下,随机变量
\begin{equation} Z_n = \frac{\sum\limits_{k=1}^{n} X_k – \sum\limits_{k=1}^{n} \mu_k}{B_n} \end{equation}
当 n 很大时,近似服从正态分布 N(0, 1)。由此,当 n 很大时,\sum\limits_{k=1}^{n} X_k = B_n Z_n + \sum\limits_{k=1}^{n} \mu_k 近似服从正态分布 N(\sum\limits_{k=1}^{n} \mu_k, B_n^2)。
注意定理二并没有要求各个随机变量 X_k(k = 1, 2, \cdots)服从什么分布,只要它们满足定理的条件,那么当 n 很大时,它们的和 \sum\limits_{k=1}^{n} X_k 就近似服从正态分布。
很多时候,我们所关心的问题受到多个独立随机因素的影响,即所研究的随机变量可以表示成多个独立的随机变量之和,如任意时刻一个城市的耗电量是大量用户耗电量之和、一个物理实验的测量误差由许多微小误差合成,它们往往近似服从正态分布。也正因此,正态随机变量在概率论中占有重要地位。
3. 独立二项分布的中心极限定理
在定理一中,假设 X_k 均服从参数为 p 的(0-1)分布,此时有 \mu = p,\sigma^2 = p(1 – p)(k = 1, 2, \cdots),代入式 (1),可得
\begin{equation} \lim_{n \rightarrow \infty} P \Bigg\{ \frac{\sum\limits_{k=1}^{n} X_k – np}{\sqrt{np(1 – p)}} \leq x \Bigg\} = \Phi(x) \end{equation}
注意到 \sum\limits_{k=1}^{n} X_k 服从参数为 (n, p) 的二项分布,于是有:
定理三(棣莫弗—拉普拉斯(De Moivre – Laplace)定理)设随机变量 \eta_n(n = 1, 2, \cdots)服从参数为 n, p(0 < p < 1)的二项分布,则对于任意 x,有
\begin{equation} \lim_{n \rightarrow \infty} P\bigg\{ \frac{\eta_n – np}{\sqrt{np(1 – p)}} \leq x \bigg\} = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2/2} \mathrm{d}t = \Phi(x) \tag{5} \end{equation}
定理三是定理一的特殊情况。它表明正态分布是二项分布的极限分布,当 n 充分大时,可以利用式 (5) 来计算二项分布的概率。