数理统计 Cheat Sheet 4:常用统计量的分布

  统计量的分布称为抽样分布。在使用统计量进行统计推断时,常需要知道它的分布。当总体分布函数已知时,抽样分布是确定的,但要求出统计量的精确分布一般来说是困难的。以下给三个常用统计量的分布。

1. $\chi^2$ 分布

  设 $X_1, X_2, \cdots, X_n$ 是来自总体 $N(0, 1)$ 的样本,则称统计量

\begin{equation}
\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2 \tag{1}
\end{equation}

服从自由度为 $n$ 的 $\chi^2$ 分布,记为 $\chi^2 \sim \chi^2(n)$。

  此处自由度是指式 $(1)$ 右端包含的独立变量的个数。

  $\chi^2(n)$ 分布的概率密度为

\begin{equation}
f(y) =\begin{cases}
\frac{1}{2^{n/2} \Gamma(n/2)} y^{n/2-1} \mathrm{e}^{-y/2}, & y > 0 \\
0 & 其他 \tag{2}
\end{cases}
\end{equation}

  $\chi^2(1)$ 分布即为 $\Gamma(\frac{1}{2}, 2)$ 分布,现 $X_i \sim N(0, 1)$,由定义 $X_i^2 \sim \chi^2(1)$,即 $X_i^2 \sim \Gamma(\frac{1}{2}, 2)$,$i = 1, 2, \cdots, n$。再由 $X_1, X_2, \cdots, X_n$ 的独立性知 $X_1^2, X_2^2, \cdots, X_n^2$ 也相互独立,从而由 $\Gamma$ 分布的可加性知

\begin{equation}
\chi^2 = \sum\limits_{i=1}^{n} X_i \sim \Gamma(\frac{n}{2}, 2) \tag{3}
\end{equation}

即得 $\chi^2$ 的概率密度如式 $(2)$。

  由 $\Gamma$ 分布的可加性易知 $\chi^2$ 的可加性:

  $\chi^2$ 分布的可加性 设 $\chi_1^2 \sim \chi^2(n_1)$,$\chi_2^2 \sim \chi^2(n_2)$,并且 $\chi_1^2, \chi_2^2$ 相互独立,则有

\begin{equation}
\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2) \tag{4}
\end{equation}

  $\chi^2$ 分布的数学期望和方差 若 $\chi^2 \sim \chi^2(n)$,则有

\begin{equation}
E(\chi^2) = n, \quad D(\chi^2) = 2n \tag{5}
\end{equation}

  由 $X_i \sim N(0, 1)$,故

\begin{align}
E(X_i^2) &= D(X_i) = 1 \\
D(X_i^2) &= E(X_i^4) – [E(X_i^2)]^2 = 3 – 1 = 2, \quad i = 1, 2, \cdots, n
\end{align}

于是有

\begin{align}
E(\chi^2) &= E(\sum\limits_{i=1}^{n} X_i^2) = \sum\limits_{i=1}^{n} E(X_i^2) = n \\
D(\chi^2) &= D(\sum\limits_{i=1}^{n} X_i^2) = \sum\limits_{i=1}^{n} D(X_i^2) = 2n
\end{align}

  $\chi^2$ 分布的上 $\alpha$ 分位点 对于给定的正数 $\alpha$,$0 < \alpha < 1$ 满足条件

\begin{equation}
P \{\chi^2 > \chi_{\alpha}^2(n)\} = \int_{\chi_{\alpha}^2(n)}^{\infty} f(y) \mathrm{d}y = \alpha \tag{6}
\end{equation}

的点 $\chi_{\alpha}^2(n)$ 就是 $\chi^2(n)$ 分布的上 $\alpha$ 分位点。

  当 $n$ 充分大时(如 $n > 40$),费希尔(R.A.Fisher)证明

\begin{equation}
\chi_{\alpha}^2(n) \approx \frac{1}{2} (z_\alpha + \sqrt{2n – 1})^2 \tag{7}
\end{equation}

其中 $z_\alpha$ 是标准正态分布的上 $\alpha$ 分位点。

2. $t$ 分布

  设 $X \sim N(0, 1)$,$Y \sim \chi^2(n)$,且 $X, Y$ 相互独立,则称随机变量

\begin{equation}
t = \frac{X}{\sqrt{Y / n}} \tag{8}
\end{equation}

服从自由度为 $n$ 的 $t$ 分布,记为 $t \sim t(n)$。

  $t$ 分布又称学生氏(Student)分布。$t(n)$ 分布的概率密度函数为

\begin{equation}
h(t) = \frac{\Gamma[(n + 1) / 2]}{\sqrt{\pi n} \Gamma(n / 2)} (1 + \frac{t^2}{n}), \quad -\infty < t < \infty \tag{9}
\end{equation}

  $h(t)$ 的图形关于 $t = 0$ 对称,当 $n$ 充分大时,其图形类似于标准正态变量概率密度的图形。利用 $\Gamma$ 函数的性质,有

\begin{equation}
\lim_{n \rightarrow \infty} h(t) = \frac{1}{\sqrt{2\pi}} \mathrm{e}^{-t^2 / 2} \tag{10}
\end{equation}

故当 $n$ 足够大时,$t$ 分布近似于 $N(0, 1)$ 分布。但对于较小的 $n$,$t$ 分布与 $N(0, 1)$ 分布相差较大。

  $t$ 分布的上 $\alpha$ 分位点 对于给定的 $\alpha$($0 < \alpha < 1$)满足条件

\begin{equation}
P\{t > t_\alpha(n)\} = \int_{t_\alpha(n)}^\infty h(t) \mathrm{d}t = \alpha \tag{11}
\end{equation}

的点 $t_\alpha(n)$ 就是 $t(n)$ 分布的上 $\alpha$ 分位点。

  由 $t$ 分布上$\alpha$ 分位点的定义及 $h(t)$ 图形的对称性可知

\begin{equation}
t_{1 – \alpha}(n) = -t_{\alpha}(n) \tag{12}
\end{equation}

  在 $n > 45$ 时,$t_\alpha(n)$ 的值可以使用正态近似

\begin{equation}
t_\alpha(n) \approx z_\alpha \tag{13}
\end{equation}

3. $F$ 分布

  设 $U \sim \chi^2(n_1)$,$V \sim \chi^2(n_2)$,且 $U, V$ 相互独立,则称随机变量

\begin{equation}
F = \frac{U / n_1}{V / n_2} \tag{14}
\end{equation}

服从自由度为 $(n_1, n_2)$ 的 $F$ 分布,记为 $F \sim F(n_1, n_2)$。

  $F(n_1, n_2)$ 分布的概率密度为

\begin{equation}
\psi(y) =\begin{cases}
\frac{\Gamma[(n_1 + n_2)/2] (n_1 + n_2)^{n_1/2} y^(n_1/2) – 1}{\Gamma(n_1/2)\Gamma(n_2/2)[1 + (n_1 y / n_2)]^{(n_1 + n_2)/2}} & y > 0 \\
0 & 其他
\end{cases} \tag{15}
\end{equation}

  由定义可知,若 $F \sim F(n_1, n_2)$,则

\begin{equation}
\frac{1}{F} \sim F(n_2, n_1) \tag{16}
\end{equation}

  $F$ 分布的上 $\alpha$ 分位点 对于给定的 $\alpha$($0 < \alpha < 1$),满足条件

\begin{equation}
P\{F > F_\alpha(n_1, n_2)\} = \int_{F_\alpha(n_1, n_2)}^\infty \psi(y) \mathrm{d}y = \alpha \tag{17}
\end{equation}

的点 $F_\alpha(n_1, n_2)$ 就是 $F(n_1, n_2)$ 分布的上 $\alpha$ 分位点。$F$ 分布的上 $\alpha$ 分位点具有如下性质:

\begin{equation}
F_{1 – \alpha}(n_1, n_2) = \frac{1}{F_\alpha(n_2, n_1)} \tag{18}
\end{equation}