数理统计 Cheat Sheet 6:点估计
估计和假设检验是统计推断所研究的两大基本问题,其中对总体参数的估计主要分为点估计和区间估计。
点估计问题指的是当总体 X 的分布函数的形式已知,而它的一个或多个参数未知,借助于总体 X 的一个样本来估计总体未知参数的值的问题。
点估计问题的一般提法为:设总体 X 的分布函数 F(x;θ) 的形式为已知,θ 为待估计参数,X1,X2,⋯,Xn 是 X 的一个样本,x1,x2,⋯,xn 是相应的一个样本值。点估计问题就是要构造一个适当的统计量 ˆθ(X1,X2,⋯,Xn),用它的观察值 ˆθ(x1,x2,⋯,xn) 作为未知参数 θ 的近似值。称 ˆθ(X1,X2,⋯,Xn) 为 θ 的估计量,称 ˆθ(x1,x2,⋯,xn) 为 θ 的 估计值。在不致混淆的情况下将估计量和估计值统称为估计,并都简记为 ˆθ。由于估计量是样本的函数,对于不用的样本值,θ 的估计值一般是不相同的。
矩估计法和最大似然估计法是构造估计量的两种常用方法。
Contents [show]
1. 矩估计法
设 X 为连续型随机变量,其概率密度为 f(x;θ1,θ2,⋯,θk),或 X 为离散型随机变量,其分布律为 P{X=x}=p(x;θ1,θ2,⋯,θk),其中 θ1,θ2,⋯,θk 为待估参数,X1,X2,⋯,Xn 是来自 X 的样本。假设总体 X 的前 k 阶矩
μl=E[Xl]=∫∞−∞f(x;θ1,θ2,⋯,θk)dx,X为连续型
或
μl=E[Xl]=∑x∈RXxlp(x;θ1,θ2,⋯,θk),X为离散型,RX为X可能取值的范围
存在,一般来说,它们是 θ1,θ2,⋯,θk 的函数。基于样本矩
A1=1nn∑i=1Xli
依概率收敛于相应的总体矩 μl(l=1,2,⋯,k),样本矩的连续函数依概率收敛于相应总体矩的连续函数(见前文),于是就用样本矩作为相应总体矩的估计量,而以样本矩的连续函数作为相应总体矩的连续函数的估计量。这种估计方法称为矩估计法。
矩估计法的具体步骤为,设
{μ1=μ1(θ1,θ2,⋯,θk)μ2=μ2(θ1,θ2,⋯,θk)⋮μk=μk(θ1,θ2,⋯,θk)
这是一个包含 k 个未知参数 θ1,θ2,⋯,θk 的联立方程组。一般来说,可以从中解出 θ1,θ2,⋯,θk,得到
{θ1=θ1(μ1,μ2,⋯,μk)θ2=θ2(μ1,μ2,⋯,μk)⋮θk=θk(μ1,μ2,⋯,μk)
以 Ai 分别代替上式中的 ui(i=1,2,⋯,k),就以
^θi=θi(A1,A2,⋯,Ak),i=1,2,⋯,k
分别作为 θi(i=1,2,⋯,k)的估计量,这种估计量称为矩估计量。矩估计量的观察值称为矩估计值。
总体均值与方差的矩估计量的表达式不因不同的总体分布而异。例如,设 X∼N(μ,σ2),μ,σ2 未知,则 μ,σ2 的矩估计量为
μ2=¯Xσ2=1nn∑i=1(Xi–¯X)2
2. 最大似然估计法
若 X 为离散型总体,其分布律 P{X=x}=p(x;θ)(θ∈Θ)为已知,θ 为待估参数,Θ 是 θ 可能取值的范围。设 X1,X2,⋯,Xn 是来自 X 的样本,则 X1,X2,⋯,Xn 的联合分布律为
n∏i=1p(xi;θ)
设 x1,x2,⋯,xn 是相应于样本 X1,X2,⋯,Xn 的一个样本值,则样本 X1,X2,⋯,Xn 取到观察值 x1,x2,⋯,xn 的概率,亦即事件 {X1=x1,X2=x2,⋯,Xn=xn} 发生的概率为
L(θ)=L(x1,x2,⋯,xn;θ)=n∏i=1p(xi;θ)θ∈Θ
上式中,x1,x2,⋯,xn 是已知的样本值,是常数。L(θ) 是 θ 的函数,这一概率随 θ 的取值而变化,L(θ) 称为样本的似然函数。
由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观察值 x1,x2,⋯,xn,在 θ 可能取值的范围 Θ 内挑选使似然函数 L(x1,x2,⋯,xn;θ) 达到最大的参数值 ˆθ,作为参数 θ 的估计值,即取 ˆθ 使
L(x1,x2,⋯,xn;ˆθ)=maxθ∈ΘL(x1,x2,⋯,xn;θ)
这样得到的 θ 与样本值 x1,x2,⋯,xn 有关,常记为 ˆθ(x1,x2,⋯,xn),称为参数 θ 的最大似然估计值,相应的统计量 ˆθ(X1,X2,⋯,Xn) 称为参数 θ 的最大似然估计量。
类似地,若 X 为连续型总体,其概率密度 f(x;θ)(θ∈Θ)的形式已知,θ 为待估参数,Θ 是 θ 可能取值的范围。设 X1,X2,⋯,Xn 是来自 X 的样本,则 X1,X2,⋯,Xn 的联合密度为
n∏i=1f(xi;θ)
设 x1,x2,⋯,xn 是相应于样本 X1,X2,⋯,Xn 的一个样本值,则随机点 X1,X2,⋯,Xn 落在点 x1,x2,⋯,xn 的邻域(边长分别为 dx1,dx2,⋯,dxn 的 n 维立方体)内的概率近似为
n∏i=1f(xi;θ)dxi
其值随 θ 变化。类似地,取 θ 的估计值 ˆθ 使式 (3) 中概率取最大值。注意因子 ∏ni=1dxi 与 θ 无关,故只需考虑函数
L(θ)=L(x1,x2,⋯,xn;θ)=n∏i=1f(xi;θ)
的最大值。这里 L(θ) 称为样本的似然函数,若
L(x1,x2,⋯,xn;ˆθ)=maxθ∈ΘL(x1,x2,⋯,xn;θ)
则称 ˆθ(x1,x2,⋯,xn) 为 θ 的最大似然估计值,称 ˆθ(X1,X2,⋯,Xn) 为 θ 的最大似然估计量。
由此确定最大似然估计量的问题就成为了求最大值的问题。很多情形下,p(x;θ) 和 f(x;θ) 关于 θ 可微,这时 ˆθ 常可从方程
ddθL(θ)=0
解得。又因 lnL(θ) 在同一 θ 处取到极值,因此 θ 的最大似然估计 θ 也可从方程
ddθlnL(θ)=0
求得。式 (6) 称为对数似然方程,使用该式求解通常比较方便。
最大似然估计法也适用于分布中含有多个未知参数 θ1,θ2,⋯,θk 的情况,此时似然函数 L 是这些未知参数的函数。分别令
∂∂θiL=0,i=1,2,⋯,k
或令
∂∂θilnL=0,i=1,2,⋯,k
解上述由 k 个方程组成的方程组,即可得到各未知参数 θi(i=1,2,⋯,k)的最大似然估计值 θi。式 (7) 称为最大似然方程组。
最大似然估计具有不变性。设 θ 的函数 u=u(θ)(θ∈Θ)具有单值反函数 θ=θ(u)(u∈U)。又假设 ˆθ 是 X 的概率分布中参数 θ 的最大似然估计,则 ˆu=u(ˆθ) 是 u(θ) 的最大似然估计。当总体分布中含有多个未知参数时,也具有次性质。
如式 (6) 的对数似然方程除了一些简单的情况外,往往没有有限函数形式的解,需要用如牛顿—拉弗森(Newton – Raphson)算法等数值方法求近似值。