数理统计 Cheat Sheet 6：点估计

Author: nex3z 2019-04-13

　　估计和假设检验是统计推断所研究的两大基本问题，其中对总体参数的估计主要分为点估计和区间估计。

　　点估计问题指的是当总体 $X$ 的分布函数的形式已知，而它的一个或多个参数未知，借助于总体 $X$ 的一个样本来估计总体未知参数的值的问题。

　　点估计问题的一般提法为：设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知，$\theta$ 为待估计参数，$X_1, X_2, \cdots, X_n$ 是 $X$ 的一个样本，$x_1, x_2, \cdots, x_n$ 是相应的一个样本值。点估计问题就是要构造一个适当的统计量 $\hat{\theta}(X_1, X_2, \cdots, X_n)$，用它的观察值 $\hat{\theta}(x_1, x_2, \cdots, x_n)$ 作为未知参数 $\theta$ 的近似值。称 $\hat{\theta}(X_1, X_2, \cdots, X_n)$ 为 $\theta$ 的估计量，称 $\hat{\theta}(x_1, x_2, \cdots, x_n)$ 为 $\theta$ 的 估计值。在不致混淆的情况下将估计量和估计值统称为估计，并都简记为 $\hat{\theta}$。由于估计量是样本的函数，对于不用的样本值，$\theta$ 的估计值一般是不相同的。

　　矩估计法和最大似然估计法是构造估计量的两种常用方法。

Contents

1. 矩估计法
2. 最大似然估计法

1. 矩估计法

　　设 $X$ 为连续型随机变量，其概率密度为 $f(x; \theta_1, \theta_2, \cdots, \theta_k)$，或 $X$ 为离散型随机变量，其分布律为 $P\{X = x\} = p(x; \theta_1, \theta_2, \cdots, \theta_k)$，其中 $\theta_1, \theta_2, \cdots, \theta_k$ 为待估参数，$X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本。假设总体 $X$ 的前 $k$ 阶矩

\begin{equation}
\mu_l = E[X^l] = \int_{-\infty}^{\infty} f(x; \theta_1, \theta_2, \cdots, \theta_k) \mathrm{d}x, \quad X \; 为连续型
\end{equation}

或

\begin{equation}
\mu_l = E[X^l] = \sum_{x \in R_X} x^l p(x; \theta_1, \theta_2, \cdots, \theta_k), \quad X \; 为离散型，R_X \; 为 \; X \; 可能取值的范围
\end{equation}

存在，一般来说，它们是 $\theta_1, \theta_2, \cdots, \theta_k$ 的函数。基于样本矩

\begin{equation}
A_1 = \frac{1}{n} \sum_{i = 1}^n X_i^l
\end{equation}

依概率收敛于相应的总体矩 $\mu_l$（$l = 1, 2, \cdots, k$），样本矩的连续函数依概率收敛于相应总体矩的连续函数（见前文），于是就用样本矩作为相应总体矩的估计量，而以样本矩的连续函数作为相应总体矩的连续函数的估计量。这种估计方法称为矩估计法。

　　矩估计法的具体步骤为，设

\begin{align}
\begin{cases}
\mu_1 &= \mu_1(\theta_1, \theta_2, \cdots, \theta_k) \\
\mu_2 &= \mu_2(\theta_1, \theta_2, \cdots, \theta_k) \\
& \vdots \\
\mu_k &= \mu_k(\theta_1, \theta_2, \cdots, \theta_k)
\end{cases}
\end{align}

这是一个包含 $k$ 个未知参数 $\theta_1, \theta_2, \cdots, \theta_k$ 的联立方程组。一般来说，可以从中解出 $\theta_1, \theta_2, \cdots, \theta_k$，得到

\begin{align}
\begin{cases}
\theta_1 &= \theta_1(\mu_1, \mu_2, \cdots, \mu_k) \\
\theta_2 &= \theta_2(\mu_1, \mu_2, \cdots, \mu_k) \\
& \vdots \\
\theta_k &= \theta_k(\mu_1, \mu_2, \cdots, \mu_k) \\
\end{cases}
\end{align}

以 $A_i$ 分别代替上式中的 $u_i$（$i = 1, 2, \cdots, k$），就以

\begin{equation}
\hat{\theta_i} = \theta_i(A_1, A_2, \cdots, A_k), \quad i = 1, 2, \cdots, k
\end{equation}

分别作为 $\theta_i$（$i = 1, 2, \cdots, k$）的估计量，这种估计量称为矩估计量。矩估计量的观察值称为矩估计值。

　　总体均值与方差的矩估计量的表达式不因不同的总体分布而异。例如，设 $X \sim N(\mu, \sigma^2)$，$\mu, \sigma^2$ 未知，则 $\mu, \sigma^2$ 的矩估计量为

\begin{align}
\mu^2 &= \overline{X}
\sigma^2 &= \frac{1}{n} \sum_{i = 1}^n (X_i – \overline{X})^2
\end{align}

2. 最大似然估计法

　　若 $X$ 为离散型总体，其分布律 $P\{X = x\} = p(x; \theta)$（$\theta \in \Theta$）为已知，$\theta$ 为待估参数，$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本，则 $X_1, X_2, \cdots, X_n$ 的联合分布律为

\begin{equation}
\prod_{i=1}^n p(x_i; \theta)
\end{equation}

设 $x_1, x_2, \cdots, x_n$ 是相应于样本 $X_1, X_2, \cdots, X_n$ 的一个样本值，则样本 $X_1, X_2, \cdots, X_n$ 取到观察值 $x_1, x_2, \cdots, x_n$ 的概率，亦即事件 $\{X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n\}$ 发生的概率为

\begin{equation}
L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i=1}^n p(x_i; \theta) \quad \theta \in \Theta \tag{1}
\end{equation}

上式中，$x_1, x_2, \cdots, x_n$ 是已知的样本值，是常数。$L(\theta)$ 是 $\theta$ 的函数，这一概率随 $\theta$ 的取值而变化，$L(\theta)$ 称为样本的似然函数。

　　由费希尔（R.A.Fisher）引进的最大似然估计法，就是固定样本观察值 $x_1, x_2, \cdots, x_n$，在 $\theta$ 可能取值的范围 $\Theta$ 内挑选使似然函数 $L(x_1, x_2, \cdots, x_n; \theta)$ 达到最大的参数值 $\hat{\theta}$，作为参数 $\theta$ 的估计值，即取 $\hat{\theta}$ 使

\begin{equation}
L(x_1, x_2, \cdots, x_n; \hat{\theta}) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta) \tag{2}
\end{equation}

这样得到的 $\theta$ 与样本值 $x_1, x_2, \cdots, x_n$ 有关，常记为 $\hat\theta(x_1, x_2, \cdots, x_n)$，称为参数 $\theta$ 的最大似然估计值，相应的统计量 $\hat\theta(X_1, X_2, \cdots, X_n)$ 称为参数 $\theta$ 的最大似然估计量。

　　类似地，若 $X$ 为连续型总体，其概率密度 $f(x; \theta)$（$\theta \in \Theta$）的形式已知，$\theta$ 为待估参数，$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本，则 $X_1, X_2, \cdots, X_n$ 的联合密度为

\begin{equation}
\prod_{i=1}^n f(x_i; \theta)
\end{equation}

设 $x_1, x_2, \cdots, x_n$ 是相应于样本 $X_1, X_2, \cdots, X_n$ 的一个样本值，则随机点 $X_1, X_2, \cdots, X_n$ 落在点 $x_1, x_2, \cdots, x_n$ 的邻域（边长分别为 $\mathrm{d}x_1, \mathrm{d}x_2, \cdots, \mathrm{d}x_n$ 的 $n$ 维立方体）内的概率近似为

\begin{equation}
\prod_{i=1}^n f(x_i; \theta) \mathrm{d}x_i \tag{3}
\end{equation}

其值随 $\theta$ 变化。类似地，取 $\theta$ 的估计值 $\hat\theta$ 使式 $(3)$ 中概率取最大值。注意因子 $\prod_{i=1}^n \mathrm{d}x_i$ 与 $\theta$ 无关，故只需考虑函数

\begin{equation}
L(\theta) = L(x_1, x_2, \cdots, x_n; \theta) = \prod_{i=1}^n f(x_i; \theta) \tag{4}
\end{equation}

的最大值。这里 $L(\theta)$ 称为样本的似然函数，若

\begin{equation}
L(x_1, x_2, \cdots, x_n; \hat\theta) = \max_{\theta \in \Theta} L(x_1, x_2, \cdots, x_n; \theta)
\end{equation}

则称 $\hat\theta(x_1, x_2, \cdots, x_n)$ 为 $\theta$ 的最大似然估计值，称 $\hat\theta(X_1, X_2, \cdots, X_n)$ 为 $\theta$ 的最大似然估计量。

　　由此确定最大似然估计量的问题就成为了求最大值的问题。很多情形下，$p(x;\theta)$ 和 $f(x;\theta)$ 关于 $\theta$ 可微，这时 $\hat\theta$ 常可从方程

\begin{equation}
\frac{\mathrm{d}}{\mathrm{d}\theta} L(\theta) = 0 \tag{5}
\end{equation}

解得。又因 $\ln L(\theta)$ 在同一 $\theta$ 处取到极值，因此 $\theta$ 的最大似然估计 $\theta$ 也可从方程

\begin{equation}
\frac{\mathrm{d}}{\mathrm{d}\theta} \ln L(\theta) = 0 \tag{6}
\end{equation}

求得。式 $(6)$ 称为对数似然方程，使用该式求解通常比较方便。

　　最大似然估计法也适用于分布中含有多个未知参数 $\theta_1, \theta_2, \cdots, \theta_k$ 的情况，此时似然函数 $L$ 是这些未知参数的函数。分别令

\begin{equation}
\frac{\partial}{\partial \theta_i} L = 0, \quad i = 1, 2, \cdots, k
\end{equation}

或令

\begin{equation}
\frac{\partial}{\partial \theta_i} \ln L = 0, \quad i = 1, 2, \cdots, k \tag{7}
\end{equation}

解上述由 $k$ 个方程组成的方程组，即可得到各未知参数 $\theta_i$（$i = 1, 2, \cdots, k$）的最大似然估计值 $\theta_i$。式 $(7)$ 称为最大似然方程组。

　　最大似然估计具有不变性。设 $\theta$ 的函数 $u = u(\theta)$（$\theta \in \Theta$）具有单值反函数 $\theta = \theta(u)$（$u \in \mathscr{U} $）。又假设 $\hat\theta$ 是 $X$ 的概率分布中参数 $\theta$ 的最大似然估计，则 $\hat u = u(\hat\theta)$ 是 $u(\theta)$ 的最大似然估计。当总体分布中含有多个未知参数时，也具有次性质。

　　如式 $(6)$ 的对数似然方程除了一些简单的情况外，往往没有有限函数形式的解，需要用如牛顿—拉弗森（Newton – Raphson）算法等数值方法求近似值。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30