数理统计 Cheat Sheet 10:(0-1) 分布参数的区间估计
设有一容量 $n > 50$ 的大样本,它来自 $(0-1)$ 分布的总体 $X$,$X$ 的分布律为
\begin{equation}
f(x; p) = p^x (1 – p)^{1 – x}, \quad x = 0, 1 \tag{1}
\end{equation}
其中 $p$ 为未知参数。
已知 $(0-1)$ 分布的均值和方差分别为
\begin{equation}
\mu = p, \quad \sigma^2 = p(1 – p) \tag{2}
\end{equation}
设 $X_1, X_2, \cdots, X_n$ 是一个样本,因样本容量 $n$ 较大,由中心极限定理,有
\begin{equation}
\frac{\sum\limits_{i=1}^{n} X_i – np}{\sqrt{np(1 – p)}} = \frac{n\overline X – np}{\sqrt{np(1 – p)}} \tag{3}
\end{equation}
近似服从 $N(0, 1)$ 分布,于是有
\begin{equation}
P\big\{ -z_{\alpha/2} < \frac{n\overline X – np}{\sqrt{np(1 – p)}} < z_{\alpha/2} \big\} \approx 1 – \alpha \tag{4}
\end{equation}
其中不等式
\begin{equation}
-z_{\alpha/2} < \frac{n\overline X – np}{\sqrt{np(1 – p)}} < z_{\alpha/2} \tag{5}
\end{equation}
等价于
\begin{equation}
(n + z_{\alpha / 2}^2) p^2 – (2n\overline X + z_{\alpha / 2}^2)p + n{\overline X}^2 < 0 \tag{6}
\end{equation}
记
\begin{equation}
p_1 = \frac{1}{2a}(-b – \sqrt{b^2 – 4ac}) \tag{7}
\end{equation}
\begin{equation}
p_2 = \frac{1}{2a}(-b + \sqrt{b^2 – 4ac}) \tag{8}
\end{equation}
其中
\begin{align}
a &= n + z_{\alpha / 2}^2 \\
b &= – (2n\overline X + z_{\alpha / 2}^2) \\
c &= n{\overline X}^2
\end{align}
于是由式 $(5)$ 得到 $p$ 的一个近似地置信水平为 $1 – \alpha$ 的置信区间为
\begin{equation}
(p_1, p_2)
\end{equation}