数理统计 Cheat Sheet 3:样本及抽样分布
Contents [show]
1. 随机样本
定义 设 X 是具有分布函数 F 的随机变量,若 X1,X2,⋯,Xn 是具有同一分布函数 F 的、相互独立的随机变量,则称 X1,X2,⋯,Xn 为从分布函数 F(或总体 F、或总体 X)得到的容量为 n 的简单随机样本,简称样本。它们的观察值 x1,x2,⋯,xn 称为样本值,又称为 X 的 n 个独立的观察值。
也可以将样本看成是一个随机向量,写成 (X1,X2,⋯,Xn),此时样本值相应地写成 (x1,x2,⋯,xn)。若 (x1,x2,⋯,xn) 和 (y1,y2,⋯,yn) 都是相应于样本 (X1,X2,⋯,Xn) 的样本值,一般来说它们是不相同的。
由定义得,若 X1,X2,⋯,Xn 为 F 的一个样本,则 X1,X2,⋯,Xn 相互独立,且它们的分布函数都是 F,所以 (X1,X2,⋯,Xn) 的分布函数为
F∗(x1,x2,⋯,xn)=n∏i=1F(xi)
又若 X 具有概率密度 f,则 (X1,X2,⋯,Xn) 的概率密度为
f∗(x1,x2,⋯,xn)=n∏i=1f(xi)
2. 抽样分布
样本是进行统计推断的依据。在应用时,往往不是使用样本本身,而是针对不同的问题构造适当函数,利用这些样本的函数进行统计推断。
定义 设 X1,X2,⋯,Xn 是来自总体 X 的一个样本,g(X1,X2,⋯,Xn) 是 X1,X2,⋯,Xn 的函数,若 g 中不含有未知参数,则称 g(X1,X2,⋯,Xn) 是一统计量。
统计量 g(X1,X2,⋯,Xn) 是随机变量 X1,X2,⋯,Xn 的函数,因此统计量也是一个随机变量。设 x1,x2,⋯,xn 是相应于样本 X1,X2,⋯,Xn 的样本值,则称 g(x1,x2,⋯,xn) 是 g(X1,X2,⋯,Xn) 的观察值。统计量的分布称为抽样分布。
设 X1,X2,⋯,Xn 是来自总体 X 的一个样本,x1,x2,⋯,xn 是这一样本的观察值,则有以下常用统计量的定义
- 样本平均值
¯X=1nn∑i=1Xi
- 样本方差
S2=1n–1n∑i=1(Xi–¯X)2=1n–1(n∑i=1X2i–n¯X2)
- 样本标准差
S=√S2=√1n–1n∑i=1(Xi–¯X)2
- 样本 k 阶(原点)矩
Ak=1nn∑i=1Xki,k=1,2,⋯
- 样本 k 阶中心矩
Bk=1nn∑i=1(Xi–¯X)k,k=2,3,⋯
它们的观察值分别为
¯x=1nn∑i=1xi
s2=1n–1n∑i=1(xi–¯x)2=1n–1(n∑i=1x2i–n¯x2)
s=√s2=√1n–1n∑i=1(xi–¯x)2
ak=1nn∑i=1xki,k=1,2,⋯
bk=1nn∑i=1(xi–¯x)k,k=2,3,⋯
若总体 X 的 k 阶矩 E(Xk)记成=μk 存在,则当 n→∞ 时,AkP→μk,k=1,2,⋯。这是因为 X1,X2,⋯,Xn 独立且与 X 同分布,所以 Xk1,Xk2,⋯,Xkn 独立且与 Xk 同分布,故有
E(Xk1)=E(Xk2)=⋯=E(Xkn)=μk
从而由辛钦大数定理可知
Ak=1nn∑i=1XkiP→μk,k=1,2,⋯
进而由依概率收敛的性质可知,对于连续函数 g,有
g(A1,A2,⋯,Ak)P→g(μ1,μ2,⋯,μk)
这是矩估计法的理论依据。
经验分布函数 设 X1,X2,⋯,Xn 是总体 F 的一个样本,用 S(x),−∞<x<∞ 表示 X1,X2,⋯,Xn 中不大于 x 的随机变量的个数。定义经验分布函数为
Fn(x)=1nS(x),−∞<x<∞
经验分布函数 Fn(x) 是与总体分布函数 F(x) 相应的统计量。从一个样本值中可以很容易地得到经验分布函数的观察值。
一般地,设 x1,x2,⋯,xn 是总体 F 的一个容量为 n 的样本值,现将 x1,x2,⋯,xn 按从小到大的顺序排列,并重新编号,设为
x(1)≤x(2)≤⋯≤x(n)
则经验分布函数 Fn(x) 的观察值为
Fn(x)={0,若x<x(1)kn,若x(k)≤x<x(k+1),k=1,2,⋯,n–11,若x≥x(n)
对于经验分布函数 Fn(x),格里汶科(Glivenko)证明对于任一实数 x,当 n→∞ 时,Fn(x) 以概率 1 一致收敛于分布函数 F(x),即
P{limn→∞sup−∞<x<∞|Fn(x)–F(x)|=0}=1
因此,对于任一实数 x,当 n 充分大时,经验分布函数的任一个观察值 Fn(x) 与总体分布函数 F(x) 只有微小的差别,从而在实际上可以当做 F(x) 来使用。