数理统计 Cheat Sheet 8:区间估计

1. 置信区间

  在测量或计算一个未知量时,除了希望得到一个近似值,还希望得到这个近似值的精确程度(所求真值所在的范围),即估计误差。类似地,在估计未知参数 $\theta$ 时,在得到点估计 $\hat\theta$ 之外,还希望能估计出一个范围,并希望知道这个范围包含参数 $\theta$ 真值得可信程度。这样的范围常以区间的形式给出,并同时给出此区间包含参数 $\theta$ 真值得可信程度。这种形式的估计称为区间估计,这样的区间称为置信区间。

  置信区间 设总体 $X$ 的分布函数 $F(x; \theta)$ 含有一个未知参数 $\theta$($\theta \in \Theta$,$\Theta$ 为 $\theta$ 可能取值的范围),对于给定值 $\alpha$($0 < \alpha < 1$),若由来自 $X$ 的样本 $X_1, X_2, \cdots, X_n$ 确定的两个统计量 $\underline{\theta} = \underline{\theta}(X_1, X_2, \cdots, X_n)$ 和 $\overline{\theta} = \overline{\theta}(X_1, X_2, \cdots, X_n)$($\underline{\theta} < \overline{\theta}$),对于任意 $\theta \in \Theta$ 满足

\begin{equation}
P\{\underline\theta(X_1, X_2, \cdots, X_n) < \theta < \overline\theta(X_1, X_2, \cdots, X_n) \} \geq 1 – \alpha \tag{1}
\end{equation}

则称随机区间 $(\underline\theta, \overline\theta)$ 是 $\theta$ 的置信水平为 $1 – \alpha$ 的置信区间,$\underline\theta$ 和 $\overline\theta$ 分别称为置信水平为 $1 – \alpha$ 的双侧置信区间的置信下限置信上限,$1 – \alpha$ 称为置信水平

  当 $X$ 是连续型随机变量时,对于给定的 $\alpha$,总能按要求 $P\{\underline\theta < \theta < \overline\theta\} = 1 – \alpha$ 求出置信区间。而当 $X$ 是离散型随机变量时,对于给定的 $\alpha$,常常找不到区间 $(\underline\theta, \overline\theta)$ 使得 $P\{\underline\theta < \theta < \overline\theta\}$ 恰为 $1 – \alpha$。此时只需去找区间 $(\underline\theta, \overline\theta)$ 使得 $P\{\underline\theta < \theta < \overline\theta\}$ 至少且尽可能接近 $1 – \alpha$ 即可。

2. 正态总体均值的置信区间

  设总体 $X \sim N(\mu, \sigma^2)$,$\sigma^2$ 为已知,$\mu$ 为未知,设 $X_1, X_2, \cdots, X_n$ 是来自 $X$ 的样本。由前文,有

\begin{equation}
\frac{\overline X – \mu}{\sigma / \sqrt{n}} \sim N(0, 1) \tag{2}
\end{equation}

注意 $\frac{\overline X – \mu}{\sigma / \sqrt{n}}$ 所服从的分布 $N(0, 1)$ 不依赖于任何未知参数,按标准正态分布的上 $\alpha$ 分位点的定义,有

\begin{equation}
P\bigg\{ \bigg\vert \frac{\overline X – \mu}{\sigma / \sqrt{n}} \bigg\vert < z_{\alpha/2} \bigg\} = 1 – \alpha \tag{3}
\end{equation}

\begin{equation}
P\bigg\{ \overline X – \frac{\sigma}{\sqrt{n}} z_{\alpha / 2} < \mu < \overline X + \frac{\sigma}{\sqrt{n}} z_{\alpha / 2} \bigg\} = 1 – \alpha \tag{4}
\end{equation}

这样就得到了 $\mu$ 的一个置信水平为 $1 – \alpha$ 的置信区间

\begin{equation}
\bigg ( \overline X – \frac{\sigma}{\sqrt{n}} z_{\alpha / 2}, \overline X + \frac{\sigma}{\sqrt{n}} z_{\alpha / 2} \bigg ) \tag{5}
\end{equation}

常写作

\begin{equation}
\bigg ( \overline X \pm \frac{\sigma}{\sqrt{n}} z_{\alpha / 2} \bigg ) \tag{6}
\end{equation}

  取 $1 – \alpha = 0.95$,即 $\alpha = 0.05$,则由式 $(5)$ 可以得到一个置信水平为 $0.95$ 的置信区间为

\begin{equation}
\bigg ( \overline X – \frac{\sigma}{\sqrt{n}} z_{0.025}, \overline X + \frac{\sigma}{\sqrt{n}} z_{0.025} \bigg ) \tag{7}
\end{equation}

置信水平为 $1 – \alpha$ 的置信区间并不是唯一的,例如

\begin{equation}
\bigg ( \overline X – \frac{\sigma}{\sqrt{n}} z_{0.01}, \overline X + \frac{\sigma}{\sqrt{n}} z_{0.04} \bigg ) \tag{8}
\end{equation}

也是一个置信水平为 $0.95$ 的置信区间。由式 $(7)$ 确定的区间长度为 $2 \times \frac{\sigma}{\sqrt{n}} z_(\alpha/2) = 3.91 \times \frac{\sigma}{\sqrt{n}}$,而由式 $(8)$ 确定的区间长度为 $\frac{\sigma}{\sqrt{n}} (z_{0.04} + z_{0.01}) = 4.08 \times \frac{\sigma}{\sqrt{n}}$。置信区间短表示估计的精度高,故式 $(7)$ 给出的区间较式 $(8)$ 为优。像 $N(0, 1)$ 分布这样概率密度的图形是单峰且对称的情况,当 $n$ 固定时,以形如式 $(5)$ 那样的区间长度为最短,通常选用它。

3. 计算未知参数 $\theta$ 置信区间的步骤

  计算未知参数 $\theta$ 置信区间的步骤如下:

  1. 寻求一个样本 $X_1, X_2, \cdots, X_n$ 的和 $\theta$ 的函数 $W = W(X_1, X_2, \cdots, X_n; \theta)$,使得 $W$ 的分布不依赖于 $\theta$ 以及其他未知参数,称具有这种性质的函数 $W$ 为枢轴量

  2. 对于给定的置信水平 $1 – \alpha$,定出两个常数 $a, b$,使得

\begin{equation}
P\{ a < W(X_1, X_2, \cdots, X_n; \theta) < b \} = 1 – \alpha
\end{equation}

若能从 $a < W(X_1, X_2, \cdots, X_n; \theta) < b$ 得到与之等价的 $\theta$ 的不等式 $\underline\theta < \theta < \overline\theta$,其中 $\underline\theta = \underline\theta(X_1, X_2, \cdots, X_n)$,$\overline\theta = \overline\theta(X_1, X_2, \cdots, X_n)$ 都是统计量。那么 $(\underline\theta, \overline\theta)$ 就是 $\theta$ 的一个置信水平为 $1 – \alpha$ 的置信区间。

  通常可以从 $\theta$ 的点估计着手考虑枢轴量 $W = W(X_1, X_2, \cdots, X_n; \theta)$ 的构造。常用的正态总体的参数的置信区间可以用上述步骤推得。