数理统计 Cheat Sheet 6:点估计

  估计和假设检验是统计推断所研究的两大基本问题,其中对总体参数的估计主要分为点估计和区间估计。

  点估计问题指的是当总体 $X$ 的分布函数的形式已知,而它的一个或多个参数未知,借助于总体 $X$ 的一个样本来估计总体未知参数的值的问题。

  点估计问题的一般提法为:设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知,$\theta$ 为待估计参数,$X_1, X_2, \cdots, X_n$ 是 $X$ 的一个样本,$x_1, x_2, \cdots, x_n$ 是相应的一个样本值。点估计问题就是要构造一个适当的统计量 $\hat{\theta}(X_1, X_2, \cdots, X_n)$,用它的观察值 $\hat{\theta}(x_1, x_2, \cdots, x_n)$ 作为未知参数 $\theta$ 的近似值。称 $\hat{\theta}(X_1, X_2, \cdots, X_n)$ 为 $\theta$ 的估计量,称 $\hat{\theta}(x_1, x_2, \cdots, x_n)$ 为 $\theta$ 的 估计值。在不致混淆的情况下将估计量和估计值统称为估计,并都简记为 $\hat{\theta}$。由于估计量是样本的函数,对于不用的样本值,$\theta$ 的估计值一般是不相同的。

  矩估计法和最大似然估计法是构造估计量的两种常用方法。

1. 矩估计法

  设 $X$ 为连续型随机变量,其概率密度为 $f(x; \theta_1, \theta_2, \cdots, \theta_k)$,或 $X$ 为离散型随机变量,其分布律为 $P\{X = x\} = p(x; \theta_1, \theta_2, \cdots, \theta_k)$,其中 $\theta_1, \theta_2, \cdots, \theta_k$ 为待估参数,$X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本。假设总体 $X$ 的前 $k$ 阶矩

\begin{equation}
\mu_l = E[X^l] = \int_{-\infty}^{\infty} f(x; \theta_1, \theta_2, \cdots, \theta_k) \mathrm{d}x, \quad X \; 为连续型
\end{equation}

\begin{equation}
\mu_l = E[X^l] = \sum_{x \in R_X} x^l p(x; \theta_1, \theta_2, \cdots, \theta_k), \quad X \; 为离散型,R_X \; 为 \; X \; 可能取值的范围
\end{equation}

存在,一般来说,它们是 $\theta_1, \theta_2, \cdots, \theta_k$ 的函数。基于样本矩

\begin{equation}
A_1 = \frac{1}{n} \sum_{i = 1}^n X_i^l
\end{equation}

依概率收敛于相应的总体矩 $\mu_l$($l = 1, 2, \cdots, k$),样本矩的连续函数依概率收敛于相应总体矩的连续函数(见前文),于是就用样本矩作为相应总体矩的估计量,而以样本矩的连续函数作为相应总体矩的连续函数的估计量。这种估计方法称为矩估计法

  矩估计法的具体步骤为,设

\begin{align}
\begin{cases}
\mu_1 &= \mu_1(\theta_1, \theta_2, \cdots, \theta_k) \\
\mu_2 &= \mu_2(\theta_1, \theta_2, \cdots, \theta_k) \\
& \vdots \\
\mu_k &= \mu_k(\theta_1, \theta_2, \cdots, \theta_k)
\end{cases}
\end{align}

这是一个包含 $k$ 个未知参数 $\theta_1, \theta_2, \cdots, \theta_k$ 的联立方程组。一般来说,可以从中解出 $\theta_1, \theta_2, \cdots, \theta_k$,得到

\begin{align}
\begin{cases}
\theta_1 &= \theta_1(\mu_1, \mu_2, \cdots, \mu_k) \\
\theta_2 &= \theta_2(\mu_1, \mu_2, \cdots, \mu_k) \\
& \vdots \\
\theta_k &= \theta_k(\mu_1, \mu_2, \cdots, \mu_k) \\
\end{cases}
\end{align}

以 $A_i$ 分别代替上式中的 $u_i$($i = 1, 2, \cdots, k$),就以

\begin{equation}
\hat{\theta_i} = \theta_i(A_1, A_2, \cdots, A_k), \quad i = 1, 2, \cdots, k
\end{equation}

分别作为 $\theta_i$($i = 1, 2, \cdots, k$)的估计量,这种估计量称为矩估计量。矩估计量的观察值称为矩估计值

  总体均值与方差的矩估计量的表达式不因不同的总体分布而异。例如,设 $X \sim N(\mu, \sigma^2)$,$\mu, \sigma^2$ 未知,则 $\mu, \sigma^2$ 的矩估计量为

\begin{align}
\mu^2 &= \overline{X}
\sigma^2 &= \frac{1}{n} \sum_{i = 1}^n (X_i – \overline{X})^2
\end{align}

2. 最大似然估计法

  若 $X$ 为离散型总体,其分布律 $P\{X = x\} = p(x; \theta)$($\theta \in \Theta$)为已知,$\theta$ 为待估参数,$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本,则 $X_1, X_2, \cdots, X_n$ 的联合分布律为

\begin{equation}
\prod_{i=1}^n p(x_i; \theta)
\end{equation}

设 $x_1, x_2, \cdots, x_n$ 是相应于样本 $X_1, X_2, \cdots, X_n$ 的一个样本值,则样本 $X_1, X_2, \cdots, X_n$ 取到观察值 $x_1, x_2, \cdots, x_n$ 的概率,亦即事件 $\{X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n\}$ 发生的概率为

\begin{equation}
L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i=1}^n p(x_i; \theta) \quad \theta \in \Theta \tag{1}
\end{equation}

上式中,$x_1, x_2, \cdots, x_n$ 是已知的样本值,是常数。$L(\theta)$ 是 $\theta$ 的函数,这一概率随 $\theta$ 的取值而变化,$L(\theta)$ 称为样本的似然函数

  由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观察值 $x_1, x_2, \cdots, x_n$,在 $\theta$ 可能取值的范围 $\Theta$ 内挑选使似然函数 $L(x_1, x_2, \cdots, x_n; \theta)$ 达到最大的参数值 $\hat{\theta}$,作为参数 $\theta$ 的估计值,即取 $\hat{\theta}$ 使

\begin{equation}
L(x_1, x_2, \cdots, x_n; \hat{\theta}) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta) \tag{2}
\end{equation}

这样得到的 $\theta$ 与样本值 $x_1, x_2, \cdots, x_n$ 有关,常记为 $\hat\theta(x_1, x_2, \cdots, x_n)$,称为参数 $\theta$ 的最大似然估计值,相应的统计量 $\hat\theta(X_1, X_2, \cdots, X_n)$ 称为参数 $\theta$ 的最大似然估计量

  类似地,若 $X$ 为连续型总体,其概率密度 $f(x; \theta)$($\theta \in \Theta$)的形式已知,$\theta$ 为待估参数,$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本,则 $X_1, X_2, \cdots, X_n$ 的联合密度为

\begin{equation}
\prod_{i=1}^n f(x_i; \theta)
\end{equation}

设 $x_1, x_2, \cdots, x_n$ 是相应于样本 $X_1, X_2, \cdots, X_n$ 的一个样本值,则随机点 $X_1, X_2, \cdots, X_n$ 落在点 $x_1, x_2, \cdots, x_n$ 的邻域(边长分别为 $\mathrm{d}x_1, \mathrm{d}x_2, \cdots, \mathrm{d}x_n$ 的 $n$ 维立方体)内的概率近似为

\begin{equation}
\prod_{i=1}^n f(x_i; \theta) \mathrm{d}x_i \tag{3}
\end{equation}

其值随 $\theta$ 变化。类似地,取 $\theta$ 的估计值 $\hat\theta$ 使式 $(3)$ 中概率取最大值。注意因子 $\prod_{i=1}^n \mathrm{d}x_i$ 与 $\theta$ 无关,故只需考虑函数

\begin{equation}
L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta) \tag{4}
\end{equation}

的最大值。这里 $L(\theta)$ 称为样本的似然函数,若

\begin{equation}
L(x_1, x_2, \cdots, x_n; \hat\theta) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta)
\end{equation}

则称 $\hat\theta(x_1, x_2, \cdots, x_n)$ 为 $\theta$ 的最大似然估计值,称 $\hat\theta(X_1, X_2, \cdots, X_n)$ 为 $\theta$ 的最大似然估计量

  由此确定最大似然估计量的问题就成为了求最大值的问题。很多情形下,$p(x;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微,这时 $\hat\theta$ 常可从方程

\begin{equation}
\frac{\mathrm{d}}{\mathrm{d}\theta} L(\theta) = 0 \tag{5}
\end{equation}

解得。又因 $\ln L(\theta)$ 在同一 $\theta$ 处取到极值,因此 $\theta$ 的最大似然估计 $\theta$ 也可从方程

\begin{equation}
\frac{\mathrm{d}}{\mathrm{d}\theta} \ln L(\theta) = 0 \tag{6}
\end{equation}

求得。式 $(6)$ 称为对数似然方程,使用该式求解通常比较方便。

  最大似然估计法也适用于分布中含有多个未知参数 $\theta_1, \theta_2, \cdots, \theta_k$ 的情况,此时似然函数 $L$ 是这些未知参数的函数。分别令

\begin{equation}
\frac{\partial}{\partial \theta_i} L = 0, \quad i = 1, 2, \cdots, k
\end{equation}

或令

\begin{equation}
\frac{\partial}{\partial \theta_i} \ln L = 0, \quad i = 1, 2, \cdots, k \tag{7}
\end{equation}

解上述由 $k$ 个方程组成的方程组,即可得到各未知参数 $\theta_i$($i = 1, 2, \cdots, k$)的最大似然估计值 $\theta_i$。式 $(7)$ 称为最大似然方程组

  最大似然估计具有不变性。设 $\theta$ 的函数 $u = u(\theta)$($\theta \in \Theta$)具有单值反函数 $\theta = \theta(u)$($u \in \mathscr{U} $)。又假设 $\hat\theta$ 是 $X$ 的概率分布中参数 $\theta$ 的最大似然估计,则 $\hat u = u(\hat\theta)$ 是 $u(\theta)$ 的最大似然估计。当总体分布中含有多个未知参数时,也具有次性质。

  如式 $(6)$ 的对数似然方程除了一些简单的情况外,往往没有有限函数形式的解,需要用如牛顿—拉弗森(Newton – Raphson)算法等数值方法求近似值。