数理统计 Cheat Sheet 10:(0-1) 分布参数的区间估计
设有一容量 n>50 的大样本,它来自 (0−1) 分布的总体 X,X 的分布律为
\begin{equation} f(x; p) = p^x (1 – p)^{1 – x}, \quad x = 0, 1 \tag{1} \end{equation}
其中 p 为未知参数。
已知 (0-1) 分布的均值和方差分别为
\begin{equation} \mu = p, \quad \sigma^2 = p(1 – p) \tag{2} \end{equation}
设 X_1, X_2, \cdots, X_n 是一个样本,因样本容量 n 较大,由中心极限定理,有
\begin{equation} \frac{\sum\limits_{i=1}^{n} X_i – np}{\sqrt{np(1 – p)}} = \frac{n\overline X – np}{\sqrt{np(1 – p)}} \tag{3} \end{equation}
近似服从 N(0, 1) 分布,于是有
\begin{equation} P\big\{ -z_{\alpha/2} < \frac{n\overline X – np}{\sqrt{np(1 – p)}} < z_{\alpha/2} \big\} \approx 1 – \alpha \tag{4} \end{equation}
其中不等式
\begin{equation} -z_{\alpha/2} < \frac{n\overline X – np}{\sqrt{np(1 – p)}} < z_{\alpha/2} \tag{5} \end{equation}
等价于
\begin{equation} (n + z_{\alpha / 2}^2) p^2 – (2n\overline X + z_{\alpha / 2}^2)p + n{\overline X}^2 < 0 \tag{6} \end{equation}
记
\begin{equation} p_1 = \frac{1}{2a}(-b – \sqrt{b^2 – 4ac}) \tag{7} \end{equation}
\begin{equation} p_2 = \frac{1}{2a}(-b + \sqrt{b^2 – 4ac}) \tag{8} \end{equation}
其中
\begin{align} a &= n + z_{\alpha / 2}^2 \\ b &= – (2n\overline X + z_{\alpha / 2}^2) \\ c &= n{\overline X}^2 \end{align}
于是由式 (5) 得到 p 的一个近似地置信水平为 1 – \alpha 的置信区间为
\begin{equation} (p_1, p_2) \end{equation}