数理统计 Cheat Sheet 2:中心极限定理
在现实中,有些事件的发生会受到大量相互独立的随机因素的影响,而其中每一个因素对事件的影响又是微弱的,此类事件往往近似服从正态分布。
Contents [show]
1. 独立同分布的中心极限定理
定理一(独立同分布的中心极限定理)设随机变量 X1,X2,⋯,Xn,⋯ 相互独立,服从同一分布,且具有数学期望和方差 E(Xk)=μ,D(Xk)=σ2>0(k=1,2,⋯),则随机变量之和 n∑k=1Xk 的标准化变量
Yn=n∑k=1Xk–E(n∑k=1Xk)√D(n∑k=1Xk)=n∑k=1Xk–nμ√nσ
的分布函数 Fn(x) 对于任意 x 满足
limn→∞Fn(x)=limn→∞P{n∑k=1Xk–nμ√nσ≤x}=∫x−∞1√2πe−t2/2dt=Φ(x)
定理一说明,均值为 μ,方差为 σ2 的独立同分布随机变量 X1,X2,⋯,Xn 之和 n∑k=1Xk 的标准化变量,在当 n 充分大时,有
n∑k=1Xk–nμ√nσ近似地∼N(0,1)
在一般情况下,很难求出 n 个随机变量之和 n∑k=1Xk 的分布函数,(2) 式表明当 n 充分大时,Φ(x) 可以给出其近似的分布。
(2) 式等号左边可以写成
n∑k=1Xk–nμ√nσ=1nn∑k=1Xk–μσ/√n=¯X–μσ/√n
于是有
¯X–μσ/√n近似地∼N(0,1)或¯X近似地∼N(μ,σ2/n)
(3) 式说明,当 n 充分大时,均值为 μ、方差为 σ2>0 的独立同分布随机变量 X1,X2,⋯,Xn 的算术平均 ¯X=1nn∑k=1Xk 近似地服从均值为 μ、方差为 σ2/n 的正态分布。这是数理统计中大样本统计推断的基础。
2. 独立、非同分布的中心极限定理
定理二(李雅普诺夫(Lyapunov)定理)设随机变量 X1,X2,⋯,Xn,⋯ 相互独立,它们具有数学期望和方差
E(Xk)=μk,D(Xk)=σ2k>0,k=1,2,⋯
记
B2n=n∑k=1σ2k
若存在整数 δ,使得当 n→∞ 时,
1B2+δnn∑k=1E{|Xk–μk|2+δ}→0
则随机变量之和 n∑k=1Xk 的标准化变量
Zn=n∑k=1Xk–E(n∑k=1Xk)√D(n∑k=1Xk)=n∑k=1Xk–n∑k=1μkBn
的分布函数 Fn(x) 对于任意 x,满足
limn→∞Fn(x)=limn→∞P{n∑k=1Xk–n∑k=1μkBn≤x}=∫x−∞1√2πe−t2/2dt=Φ(x)
定理二表明,在定理的条件下,随机变量
Zn=n∑k=1Xk–n∑k=1μkBn
当 n 很大时,近似服从正态分布 N(0,1)。由此,当 n 很大时,n∑k=1Xk=BnZn+n∑k=1μk 近似服从正态分布 N(n∑k=1μk,B2n)。
注意定理二并没有要求各个随机变量 Xk(k=1,2,⋯)服从什么分布,只要它们满足定理的条件,那么当 n 很大时,它们的和 n∑k=1Xk 就近似服从正态分布。
很多时候,我们所关心的问题受到多个独立随机因素的影响,即所研究的随机变量可以表示成多个独立的随机变量之和,如任意时刻一个城市的耗电量是大量用户耗电量之和、一个物理实验的测量误差由许多微小误差合成,它们往往近似服从正态分布。也正因此,正态随机变量在概率论中占有重要地位。
3. 独立二项分布的中心极限定理
在定理一中,假设 Xk 均服从参数为 p 的(0-1)分布,此时有 μ=p,σ2=p(1–p)(k=1,2,⋯),代入式 (1),可得
limn→∞P{n∑k=1Xk–np√np(1–p)≤x}=Φ(x)
注意到 n∑k=1Xk 服从参数为 (n,p) 的二项分布,于是有:
定理三(棣莫弗—拉普拉斯(De Moivre – Laplace)定理)设随机变量 ηn(n=1,2,⋯)服从参数为 n,p(0<p<1)的二项分布,则对于任意 x,有
limn→∞P{ηn–np√np(1–p)≤x}=∫x−∞1√2πe−t2/2dt=Φ(x)
定理三是定理一的特殊情况。它表明正态分布是二项分布的极限分布,当 n 充分大时,可以利用式 (5) 来计算二项分布的概率。