概率论 Cheat Sheet 20:次序统计量与可交换随机变量

1. 次序统计量

  设 $X_1, X_2, \cdots, X_n$ 为 $n$ 个独立同分布的连续型随机变量,其分布函数为 $F(x)$,密度函数为 $f(x)$,定义

\begin{align}
X_{(1)} &= X_1, X_2, \cdots, X_n \; 中的最小者 \\
X_{(2)} &= X_1, X_2, \cdots, X_n \; 中的第 \; 2 \;小者 \\
& \vdots \\
X_{(j)} &= X_1, X_2, \cdots, X_n \; 中的第 \; j \;小者 \\
& \vdots \\
X_{(n)} &= X_1, X_2, \cdots, X_n \; 中的最大者
\end{align}

排序后的 $X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}$ 称为 $X_1, X_2, \cdots, X_n$ 的次序统计量(Order Statistics),换言之,$X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}$ 是 $X_1. \cdots, X_n$ 排序后的值。

  为了计算 $X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}$ 的联合密度,注意到 $X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}$ 取值为 $x_1 \leq x_2 \leq \cdots \leq x_n$ 的充要条件是存在 $(1, 2, \cdots, n)$ 的一个排列 $(i_1, i_2, \cdots, i_n)$ 使得

\begin{equation}
X_1 = x_{i_1}, \; X_2 = x_{i_2}, \; \cdots, \; X_n = x_{i_n}
\end{equation}

而对于任何 $(1, 2, \cdots, n)$ 的排列 $(i_1, \cdots, i_n)$,

\begin{align}
& P\Big\{ x_{i_1} – \frac{\varepsilon}{2} < X_1 < x_{i_1} + \frac{\varepsilon}{2}, \cdots, x_{i_n} – \frac{\varepsilon}{2} < X_n < x_{i_n} + \frac{\varepsilon}{2}\Big\} \\
& \approx \varepsilon^n f_{X_1, \cdots, X_n}(x_{i_1}, \cdots, x_{i_n}) = \varepsilon^n f(x_{i_1}) \cdots f(x_{i_n}) \\
& = \varepsilon^n f(x_1) \cdots f(x_n)
\end{align}

由此可知,对 $x_1 < x_2 < \cdots < x_n$,有

\begin{equation}
P\Big\{ x_1 – \frac{\varepsilon}{2} < X_1 < x_1 + \frac{\varepsilon}{2}, \cdots, x_n – \frac{\varepsilon}{2} < X_n < x_n + \frac{\varepsilon}{2}\Big\} \approx n! \varepsilon^n f(x_1) \cdots f(x_n)
\end{equation}

上式两端同除以 $\varepsilon^n$,并令 $\varepsilon \rightarrow 0$,得

\begin{equation}
f_{X_{(1)}, \cdots, X_{(n)}}(x_1, \cdots, x_n) = n! f(x_1) \cdots f(x_n) \qquad x_1 < x_2 < \cdots < x_n \tag{1}
\end{equation}

可以这样来理解上式:向量 $\langle X_{(1)}, \cdots, X_{(n)} \rangle$ 等于 $\langle x_1, \cdots, x_n \rangle$ 的充要条件是 $\langle X_{(1)}, \cdots, X_{(n)} \rangle$ 等于 $\langle x_1, \cdots, x_n \rangle$ 的 $n!$ 种排列之一,而 $\langle X_{(1)}, \cdots, X_{(n)} \rangle$ 等于 $\langle x_1, \cdots, x_n \rangle$ 的任一排列的概率(密度)刚好是 $f(x_1) \cdots f(x_n)$。

2. 可交换随机变量

  对于随机变量 $X_1, \cdots, X_n$,如果对于 $1, 2, \cdots, n$ 的每一个排列 $i_1, \cdots, i_n$,有

\begin{equation}
P\{X_{i_1} \leq x_1, X_{i_2} \leq x_2, \cdots, X_{i_n} \leq x_n\} = P\{X_1 \leq x_1, X_2 \leq x_2, \cdots, X_n \leq x_n\}
\end{equation}

对一切 $x_1, \cdots, x_n$ 成立,则称随机变量 $X_1, \cdots, X_n$ 是可交换的(Exchangeable)。也就是说,如果 $n$ 个随机变量的联合分布与这些随机变量的次序无关,则这些随机变量是可交换的。

  当 $X_1, \cdots, X_n$ 为离散型随机变量时,可交换条件是

\begin{equation}
P\{X_{i_1} = x_1, X_{i_2} = x_2, \cdots, X_{i_n} = x_n\} = P\{X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n\}
\end{equation}

对任意排列 $i_1, \cdots, i_n$ 和一切 $x_1, \cdots, x_n$ 成立。它与下面的表述是等价的:分布列 $p(x_1, \cdots, x_n) = P\{X_{i_1} = x_1, \cdots, X_{i_n} = x_n\}$ 是向量 $(x_1, \cdots, x_n)$ 的对称函数,或者说当向量 $x_1, \cdots, x_n$ 的值任意排列后,相应的概率值不变。