数理统计 Cheat Sheet 3:样本及抽样分布

1. 随机样本

  定义 设 $X$ 是具有分布函数 $F$ 的随机变量,若 $X_1, X_2, \cdots, X_n$ 是具有同一分布函数 $F$ 的、相互独立的随机变量,则称 $X_1, X_2, \cdots, X_n$ 为从分布函数 $F$(或总体 $F$、或总体 $X$)得到的容量为 $n$ 的简单随机样本,简称样本。它们的观察值 $x_1, x_2, \cdots, x_n$ 称为样本值,又称为 $X$ 的 $n$ 个独立的观察值

  也可以将样本看成是一个随机向量,写成 $(X_1, X_2, \cdots, X_n)$,此时样本值相应地写成 $(x_1, x_2, \cdots, x_n)$。若 $(x_1, x_2, \cdots, x_n)$ 和 $(y_1, y_2, \cdots, y_n)$ 都是相应于样本 $(X_1, X_2, \cdots, X_n)$ 的样本值,一般来说它们是不相同的。

  由定义得,若 $X_1, X_2, \cdots, X_n$ 为 $F$ 的一个样本,则 $X_1, X_2, \cdots, X_n$ 相互独立,且它们的分布函数都是 $F$,所以 $(X_1, X_2, \cdots, X_n)$ 的分布函数为

\begin{equation}
F^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n F(x_i)
\end{equation}

又若 $X$ 具有概率密度 $f$,则 $(X_1, X_2, \cdots, X_n)$ 的概率密度为

\begin{equation}
f^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n f(x_i)
\end{equation}

2. 抽样分布

  样本是进行统计推断的依据。在应用时,往往不是使用样本本身,而是针对不同的问题构造适当函数,利用这些样本的函数进行统计推断。

  定义 设 $X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的一个样本,$g(X_1, X_2, \cdots, X_n)$ 是 $X_1, X_2, \cdots, X_n$ 的函数,若 $g$ 中不含有未知参数,则称 $g(X_1, X_2, \cdots, X_n)$ 是一统计量

  统计量 $g(X_1, X_2, \cdots, X_n)$ 是随机变量 $X_1, X_2, \cdots, X_n$ 的函数,因此统计量也是一个随机变量。设 $x_1, x_2, \cdots, x_n$ 是相应于样本 $X_1, X_2, \cdots, X_n$ 的样本值,则称 $g(x_1, x_2, \cdots, x_n)$ 是 $g(X_1, X_2, \cdots, X_n)$ 的观察值。统计量的分布称为抽样分布

  设 $X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的一个样本,$x_1, x_2, \cdots, x_n$ 是这一样本的观察值,则有以下常用统计量的定义

  • 样本平均值

\begin{equation}
\overline{X} = \frac{1}{n} \sum\limits_{i=1}^{n} X_i
\end{equation}

  • 样本方差

\begin{equation}
S^2 = \frac{1}{n – 1} \sum\limits_{i=1}^{n} (X_i – \overline{X})^2 = \frac{1}{n – 1}\Big( \sum\limits_{i=1}^{n} X_i^2 – n\overline{X}^2 \Big)
\end{equation}

  • 样本标准差

\begin{equation}
S = \sqrt{S^2} = \sqrt{\frac{1}{n – 1} \sum\limits_{i=1}^{n} (X_i – \overline{X})^2}
\end{equation}

  • 样本 $k$ 阶(原点)矩

\begin{equation}
A_k = \frac{1}{n} \sum\limits_{i=1}^{n} X_i^k, \quad k = 1, 2, \cdots
\end{equation}

  • 样本 $k$ 阶中心矩

\begin{equation}
B_k = \frac{1}{n} \sum\limits_{i=1}^{n} (X_i – \overline{X})^k, \quad k = 2, 3, \cdots
\end{equation}

它们的观察值分别为

\begin{equation}
\overline{x} = \frac{1}{n} \sum\limits_{i=1}^{n} x_i
\end{equation}

\begin{equation}
s^2 = \frac{1}{n – 1} \sum\limits_{i=1}^{n} (x_i – \overline{x})^2 = \frac{1}{n – 1}\Big( \sum\limits_{i=1}^{n} x_i^2 – n\overline{x}^2 \Big)
\end{equation}

\begin{equation}
s = \sqrt{s^2} = \sqrt{\frac{1}{n – 1} \sum\limits_{i=1}^{n} (x_i – \overline{x})^2}
\end{equation}

\begin{equation}
a_k = \frac{1}{n} \sum\limits_{i=1}^{n} x_i^k, \quad k = 1, 2, \cdots
\end{equation}

\begin{equation}
b_k = \frac{1}{n} \sum\limits_{i=1}^{n} (x_i – \overline{x})^k, \quad k = 2, 3, \cdots
\end{equation}

  若总体 $X$ 的 $k$ 阶矩 $E(X^k) \overset{记成}{=} \mu_k$ 存在,则当 $n \rightarrow \infty$ 时,$A_k \overset{P}{\rightarrow} \mu_k, k = 1, 2, \cdots$。这是因为 $X_1, X_2, \cdots, X_n$ 独立且与 $X$ 同分布,所以 $X_1^k, X_2^k, \cdots, X_n^k$ 独立且与 $X^k$ 同分布,故有

\begin{equation}
E(X_1^k) = E(X_2^k) = \cdots = E(X_n^k) = \mu_k
\end{equation}

从而由辛钦大数定理可知

\begin{equation}
A_k = \frac{1}{n} \sum\limits_{i=1}^{n} X_i^k \overset{P}{\rightarrow} \mu_k, \quad k = 1, 2, \cdots
\end{equation}

进而由依概率收敛的性质可知,对于连续函数 $g$,有

\begin{equation}
g(A_1, A_2, \cdots, A_k) \overset{P}{\rightarrow} g(\mu_1, \mu_2, \cdots, \mu_k)
\end{equation}

这是矩估计法的理论依据。

  经验分布函数 设 $X_1, X_2, \cdots, X_n$ 是总体 $F$ 的一个样本,用 $S(x)$,$-\infty < x < \infty$ 表示 $X_1, X_2, \cdots, X_n$ 中不大于 $x$ 的随机变量的个数。定义经验分布函数为

\begin{equation}
F_n(x) = \frac{1}{n} S(x), \quad -\infty < x < \infty
\end{equation}

经验分布函数 $F_n(x)$ 是与总体分布函数 $F(x)$ 相应的统计量。从一个样本值中可以很容易地得到经验分布函数的观察值。

  一般地,设 $x_1, x_2, \cdots, x_n$ 是总体 $F$ 的一个容量为 $n$ 的样本值,现将 $x_1, x_2, \cdots, x_n$ 按从小到大的顺序排列,并重新编号,设为

\begin{equation}
x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}
\end{equation}

则经验分布函数 $F_n(x)$ 的观察值为

\begin{equation}
F_n(x) = \begin{cases}
0, & 若 \; x < x_{(1)} \\
\frac{k}{n}, & 若 x_{(k)} \leq x < x_{(k + 1)}, \quad k = 1, 2, \cdots, n – 1 \\
1, & 若 \; x \geq x_{(n)}
\end{cases}
\end{equation}

  对于经验分布函数 $F_n(x)$,格里汶科(Glivenko)证明对于任一实数 $x$,当 $n \rightarrow \infty$ 时,$F_n(x)$ 以概率 $1$ 一致收敛于分布函数 $F(x)$,即

\begin{equation}
P\{ \lim_{n \rightarrow \infty} \sup_{-\infty < x < \infty} |F_n(x) – F(x)| = 0 \} = 1
\end{equation}

因此,对于任一实数 $x$,当 $n$ 充分大时,经验分布函数的任一个观察值 $F_n(x)$ 与总体分布函数 $F(x)$ 只有微小的差别,从而在实际上可以当做 $F(x)$ 来使用。