概率论 Cheat Sheet 16:联合分布函数

1. 联合概率分布函数

  为了处理两个随机变量的概率问题,定义两个随机变量 $X$ 和 $Y$ 的联合概率分布函数(Joint Cumulative Probability Distribution Function)如下

\begin{equation}
F(a, b) = P\{X \leq a, Y \leq b\} \qquad -\infty < a, b < \infty \tag{1}
\end{equation}

$X$ 的分布可以通过 $X$ 和 $Y$ 的联合分布得到,即

\begin{align}
F_X(a) &= P\{X \leq a\} = P\{X \leq a, Y < \infty\} = P\big(\lim_{b \rightarrow \infty}\{X \leq a, Y \leq b\} \big) \\
&= \lim_{b \rightarrow \infty}P\{X \leq a, Y \leq b\} = \lim_{b \rightarrow \infty} F(a, b) = F(a, \infty)
\end{align}

类似地,可得 $Y$ 的分布函数为

\begin{equation}
F_Y(b) = P\{Y \leq b\} = \lim_{a \rightarrow \infty} F(a, b) = F(\infty, b)
\end{equation}

分布函数 $F_X$ 和 $F_Y$ 称为 $X$ 和 $Y$ 的边缘分布(Marginal Distribution)。

  理论上,所有关于 $X$ 和 $Y$ 的联合概率问题都可以通过其联合分布函数来解决。例如对于 $X > a$ 和 $Y > b$ 的联合概率,有

\begin{align}
P\{X > a, Y > b\} &= 1 – P\{X > a, Y >b\}^c = 1 – P(\{X > a\}^c \textstyle\bigcup \{Y > b\}^c) \\
&= 1 – P(\{X \leq q\} \textstyle\bigcup \{Y \leq b\}) \\
&= 1 – [P\{X \leq a\} + P\{Y \leq b\} – P\{X \leq a, Y \leq b\}] \\
&= 1 – F_X(a) – F_Y(b) + F(a, b)
\end{align}

上式实际上是以下等式的特例

\begin{equation}
P\{a_1 < X \leq a_2, b_2 < Y \leq b_2\} = F(a_2, b_2) + F(a_1, b_1) – F(a_1, b_2) – F(a_2, b_1)
\end{equation}

其中 $a_1 < a_2$,$b_1 < b_2$。

2. 联合概率分布列

  当 $X$ 和 $Y$ 都是离散型随机变量时,$X$ 和 $Y$ 的联合概率分布列(Joint Probability Mass Function)定义如下

\begin{equation}
p(x, y) = P\{X = x, Y = y\} \tag{2}
\end{equation}

由 $p(x, y)$ 可得 $X$ 的分布列为

\begin{equation}
p_X(x) = P\{X = x\} = \sum_{y: \; p(x, y) > 0} p(x, y) \tag{3}
\end{equation}

类似地可得 $Y$ 的分布列为

\begin{equation}
p_Y(y) = P\{Y = y\} = \sum_{x: \; p(x, y) > 0} p(x, y) \tag{4}
\end{equation}

3. 联合密度函数

  如果存在一个定义于任意实数 $x$ 和 $y$ 上的函数 $f(x, y)$,满足任意实数对集合 $C$,有

\begin{equation}
P\{(X, Y) \in C\} = \iint\limits_{(x, y) \in C} f(x, y) \mathrm{d}x \mathrm{d}y \tag{5}
\end{equation}

则其中 $C$ 是二维空间中的集合,则称 $X$ 和 $Y$ 是联合连续的(Jointly Continuous),函数 $f(x, y)$ 称为 $X$ 和 $Y$ 的联合密度函数(Joint Probability Density Function)。如果 $A$ 和 $B$ 为任意实数集,定义 $C = \{(x, y): x \in A, y \in B\}$,通过式 $(5)$ 可以得到

\begin{equation}
P\{X \in A, Y \in B\} = \int_B\int_A f(x, y) \mathrm{d}x \mathrm{d}y \tag{6}
\end{equation}

\begin{equation}
F(a, b) = P\{X \in (-\infty, a), Y \in (-\infty, b)\} = \int_{-\infty}^b\int_{-\infty}^a f(x, y) \mathrm{d}x \mathrm{d}y
\end{equation}

求导可得(如果偏导数有意义)

\begin{equation}
f(a, b) = \frac{\partial^2}{\partial a \partial b}F(a, b) \tag{7}
\end{equation}

  从式 $(5)$ 可以从另一个角度理解联合密度函数,由

\begin{equation}
P\{a < X \leq a + \mathrm{d}a, b < Y \leq b + \mathrm{d}b\} = \int_b^{b + \mathrm{d}b} \int_a^{a + \mathrm{d}a} f(x, y) \mathrm{d}x \mathrm{d}y \approx f(a, b) \mathrm{d}a \mathrm{d}b
\end{equation}

其中 $\mathrm{d}a$ 和 $\mathrm{d}b$ 都是很小的值,且 $f(x, y)$ 在 $(a, b)$ 处连续。因此,$f(a, b)$ 表示随机向量 $(X, Y)$ 取值于 $(a, b)$ 附近的可能性的大小。

  如果 $X$ 和 $Y$ 是联合连续的,那么它们各自都连续。它们各自的密度函数可以如下得到

\begin{equation}
P\{X \in A\} = P\{X \in A, Y \in (-\infty, \infty)\} = \int_A \int_{-\infty}^{\infty}f(x, y) \mathrm{d}y \mathrm{d}x = \int_A f_X(x) \mathrm{d}x
\end{equation}

其中

\begin{equation}
f_X(x) = \int_{-\infty}^{\infty}f(x, y) \mathrm{d}y \tag{8}
\end{equation}

为 $X$ 的概率密度。类似地,$Y$ 的概率密度为

\begin{equation}
f_Y(y) = \int_{-\infty}^{\infty}f(x, y) \mathrm{d}x \tag{9}
\end{equation}

4. 多项分布

  进行 $n$ 次独立重复试验,每次试验有 $r$ 种可能的结果,每种结果发生的概率为 $p_1, p_2, \cdots, p_r$,$\sum_{i=1}^r p_i = 1$。若令 $X_i$ 表示 $n$ 次试验中第 $i$ 个结果出现的次数,那么

\begin{equation}
P\{X_1 = n_1, X_2 = n_2, \cdots, X_r = n_r\} = \frac{n!}{n_1! n_2! \cdots n_r!} p_1^{n_1} p_2^{n_2} \cdots p_r^{n_r} \tag{10}
\end{equation}

其中 $\sum\limits_{i=1}^r n_i = n$。

  以式 $(10)$ 为联合密度函数的联合分布称为多项分布(Multinomial Distribution)。当 $r = 2$ 时,多项分布就退化为二项分布。

  在多项分布中,对于任意一组固定的集合,$X_i$ 之和都服从二项分布。对于 $N \subset \{1, 2, \cdots, r\}$,$\sum\limits_{i \in N}X_i$ 表示 $n$ 次试验中试验结果取在 $N$ 中,因为每次试验都是独立的,所以其概率为 $\sum\limits_{i \in N}p_i$。于是 $\sum\limits_{i \in N}X_i$ 服从参数为 $n$ 和 $p = \sum\limits_{i \in N}p_i$ 的二项分布。