数理统计 Cheat Sheet 6:点估计
估计和假设检验是统计推断所研究的两大基本问题,其中对总体参数的估计主要分为点估计和区间估计。
点估计问题指的是当总体 X 的分布函数的形式已知,而它的一个或多个参数未知,借助于总体 X 的一个样本来估计总体未知参数的值的问题。
点估计问题的一般提法为:设总体 X 的分布函数 F(x;θ) 的形式为已知,θ 为待估计参数,X1,X2,⋯,Xn 是 X 的一个样本,x1,x2,⋯,xn 是相应的一个样本值。点估计问题就是要构造一个适当的统计量 ˆθ(X1,X2,⋯,Xn),用它的观察值 ˆθ(x1,x2,⋯,xn) 作为未知参数 θ 的近似值。称 ˆθ(X1,X2,⋯,Xn) 为 θ 的估计量,称 ˆθ(x1,x2,⋯,xn) 为 θ 的 估计值。在不致混淆的情况下将估计量和估计值统称为估计,并都简记为 ˆθ。由于估计量是样本的函数,对于不用的样本值,θ 的估计值一般是不相同的。
矩估计法和最大似然估计法是构造估计量的两种常用方法。
Contents [show]
1. 矩估计法
设 X 为连续型随机变量,其概率密度为 f(x;θ1,θ2,⋯,θk),或 X 为离散型随机变量,其分布律为 P{X=x}=p(x;θ1,θ2,⋯,θk),其中 θ1,θ2,⋯,θk 为待估参数,X1,X2,⋯,Xn 是来自 X 的样本。假设总体 X 的前 k 阶矩
μl=E[Xl]=∫∞−∞f(x;θ1,θ2,⋯,θk)dx,X为连续型
或
μl=E[Xl]=∑x∈RXxlp(x;θ1,θ2,⋯,θk),X为离散型,RX为X可能取值的范围
存在,一般来说,它们是 θ1,θ2,⋯,θk 的函数。基于样本矩
A1=1nn∑i=1Xli
依概率收敛于相应的总体矩 μl(l=1,2,⋯,k),样本矩的连续函数依概率收敛于相应总体矩的连续函数(见前文),于是就用样本矩作为相应总体矩的估计量,而以样本矩的连续函数作为相应总体矩的连续函数的估计量。这种估计方法称为矩估计法。
矩估计法的具体步骤为,设
{μ1=μ1(θ1,θ2,⋯,θk)μ2=μ2(θ1,θ2,⋯,θk)⋮μk=μk(θ1,θ2,⋯,θk)
这是一个包含 k 个未知参数 θ1,θ2,⋯,θk 的联立方程组。一般来说,可以从中解出 θ1,θ2,⋯,θk,得到
{θ1=θ1(μ1,μ2,⋯,μk)θ2=θ2(μ1,μ2,⋯,μk)⋮θk=θk(μ1,μ2,⋯,μk)
以 Ai 分别代替上式中的 ui(i=1,2,⋯,k),就以
^θi=θi(A1,A2,⋯,Ak),i=1,2,⋯,k
分别作为 θi(i=1,2,⋯,k)的估计量,这种估计量称为矩估计量。矩估计量的观察值称为矩估计值。
总体均值与方差的矩估计量的表达式不因不同的总体分布而异。例如,设 X∼N(μ,σ2),μ,σ2 未知,则 μ,σ2 的矩估计量为
\begin{align} \mu^2 &= \overline{X} \sigma^2 &= \frac{1}{n} \sum_{i = 1}^n (X_i – \overline{X})^2 \end{align}
2. 最大似然估计法
若 X 为离散型总体,其分布律 P\{X = x\} = p(x; \theta)(\theta \in \Theta)为已知,\theta 为待估参数,\Theta 是 \theta 可能取值的范围。设 X_1, X_2, \cdots, X_n 是来自 X 的样本,则 X_1, X_2, \cdots, X_n 的联合分布律为
\begin{equation} \prod_{i=1}^n p(x_i; \theta) \end{equation}
设 x_1, x_2, \cdots, x_n 是相应于样本 X_1, X_2, \cdots, X_n 的一个样本值,则样本 X_1, X_2, \cdots, X_n 取到观察值 x_1, x_2, \cdots, x_n 的概率,亦即事件 \{X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n\} 发生的概率为
\begin{equation} L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i=1}^n p(x_i; \theta) \quad \theta \in \Theta \tag{1} \end{equation}
上式中,x_1, x_2, \cdots, x_n 是已知的样本值,是常数。L(\theta) 是 \theta 的函数,这一概率随 \theta 的取值而变化,L(\theta) 称为样本的似然函数。
由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观察值 x_1, x_2, \cdots, x_n,在 \theta 可能取值的范围 \Theta 内挑选使似然函数 L(x_1, x_2, \cdots, x_n; \theta) 达到最大的参数值 \hat{\theta},作为参数 \theta 的估计值,即取 \hat{\theta} 使
\begin{equation} L(x_1, x_2, \cdots, x_n; \hat{\theta}) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta) \tag{2} \end{equation}
这样得到的 \theta 与样本值 x_1, x_2, \cdots, x_n 有关,常记为 \hat\theta(x_1, x_2, \cdots, x_n),称为参数 \theta 的最大似然估计值,相应的统计量 \hat\theta(X_1, X_2, \cdots, X_n) 称为参数 \theta 的最大似然估计量。
类似地,若 X 为连续型总体,其概率密度 f(x; \theta)(\theta \in \Theta)的形式已知,\theta 为待估参数,\Theta 是 \theta 可能取值的范围。设 X_1, X_2, \cdots, X_n 是来自 X 的样本,则 X_1, X_2, \cdots, X_n 的联合密度为
\begin{equation} \prod_{i=1}^n f(x_i; \theta) \end{equation}
设 x_1, x_2, \cdots, x_n 是相应于样本 X_1, X_2, \cdots, X_n 的一个样本值,则随机点 X_1, X_2, \cdots, X_n 落在点 x_1, x_2, \cdots, x_n 的邻域(边长分别为 \mathrm{d}x_1, \mathrm{d}x_2, \cdots, \mathrm{d}x_n 的 n 维立方体)内的概率近似为
\begin{equation} \prod_{i=1}^n f(x_i; \theta) \mathrm{d}x_i \tag{3} \end{equation}
其值随 \theta 变化。类似地,取 \theta 的估计值 \hat\theta 使式 (3) 中概率取最大值。注意因子 \prod_{i=1}^n \mathrm{d}x_i 与 \theta 无关,故只需考虑函数
\begin{equation} L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta) \tag{4} \end{equation}
的最大值。这里 L(\theta) 称为样本的似然函数,若
\begin{equation} L(x_1, x_2, \cdots, x_n; \hat\theta) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta) \end{equation}
则称 \hat\theta(x_1, x_2, \cdots, x_n) 为 \theta 的最大似然估计值,称 \hat\theta(X_1, X_2, \cdots, X_n) 为 \theta 的最大似然估计量。
由此确定最大似然估计量的问题就成为了求最大值的问题。很多情形下,p(x;\theta) 和 f(x;\theta) 关于 \theta 可微,这时 \hat\theta 常可从方程
\begin{equation} \frac{\mathrm{d}}{\mathrm{d}\theta} L(\theta) = 0 \tag{5} \end{equation}
解得。又因 \ln L(\theta) 在同一 \theta 处取到极值,因此 \theta 的最大似然估计 \theta 也可从方程
\begin{equation} \frac{\mathrm{d}}{\mathrm{d}\theta} \ln L(\theta) = 0 \tag{6} \end{equation}
求得。式 (6) 称为对数似然方程,使用该式求解通常比较方便。
最大似然估计法也适用于分布中含有多个未知参数 \theta_1, \theta_2, \cdots, \theta_k 的情况,此时似然函数 L 是这些未知参数的函数。分别令
\begin{equation} \frac{\partial}{\partial \theta_i} L = 0, \quad i = 1, 2, \cdots, k \end{equation}
或令
\begin{equation} \frac{\partial}{\partial \theta_i} \ln L = 0, \quad i = 1, 2, \cdots, k \tag{7} \end{equation}
解上述由 k 个方程组成的方程组,即可得到各未知参数 \theta_i(i = 1, 2, \cdots, k)的最大似然估计值 \theta_i。式 (7) 称为最大似然方程组。
最大似然估计具有不变性。设 \theta 的函数 u = u(\theta)(\theta \in \Theta)具有单值反函数 \theta = \theta(u)(u \in \mathscr{U} )。又假设 \hat\theta 是 X 的概率分布中参数 \theta 的最大似然估计,则 \hat u = u(\hat\theta) 是 u(\theta) 的最大似然估计。当总体分布中含有多个未知参数时,也具有次性质。
如式 (6) 的对数似然方程除了一些简单的情况外,往往没有有限函数形式的解,需要用如牛顿—拉弗森(Newton – Raphson)算法等数值方法求近似值。