概率论 Cheat Sheet 3:多维随机变量及其分布(2)
2. 边缘分布
二维随机变量 $(X, Y)$ 作为一个整体,具有分布函数 $F(x, y)$。而 $X$ 和 $Y$ 都是随机变量,各自也有分布函数。将它们分别记为 $F_X(x)$,$F_Y(y)$,依次称为二维随机变量 $(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布函数。边缘分布函数可以由 $(X, Y)$ 的分布函数 $F(x, y)$ 所确定,事实上,
\begin{equation}
F_X(x) = P\{X \leq x\} = P\{X \leq x, Y \leq \infty\} = F(x, \infty)
\end{equation}
即
\begin{equation}
F_X(x) = F(x, \infty) \tag{2.1}
\end{equation}
就是说,只要在函数 $F(x, y)$ 中令 $y \rightarrow \infty$ 就能得到 $F_X(x)$。同理
\begin{equation}
F_Y(y) = F(\infty, y) \tag{2.2}
\end{equation}
对于离散型随机变量,由 $(1.2)$、$(2.1)$ 式可得
\begin{equation}
F_X(x) = F(x, \infty) = \sum_{x_i \leq x} \sum_{j=1}^{\infty}p_{ij}
\end{equation}
$X$ 的分布律为
\begin{equation}
P\{X = x_i\} = \sum_{j=1}^{\infty} p_{ij}, i = 1,2,\cdots
\end{equation}
同样,$Y$ 的分布律为
\begin{equation}
P\{Y = y_j\} = \sum_{i=1}^{\infty} p_{ij}, j = 1,2,\cdots
\end{equation}
记
\begin{equation}
p_{i \cdot} = \sum_{j=1}^{\infty} p_{ij} = P\{X = x_i\}, i = 1,2,\cdots \\
p_{\cdot j} = \sum_{i=1}^{\infty} p_{ij} = P\{Y = y_j\}, j = 1,2,\cdots
\end{equation}
分别称 $p_{i \cdot} (i = 1,2,\cdots)$ 和 $p_{\cdot j} (j = 1,2,\cdots)$ 为 $(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布律(注意,记号 $p_{i \cdot}$ 中的 $\cdot$ 表示 $p_{i \cdot}$ 是由 $p_{ij}$ 关于 $j$ 求和后得到的;同样,$p_{\cdot j}$ 是由 $p_{ij}$ 关于 $i$ 求和后得到的)。
对于连续型随机变量 $(X, Y)$,设它的概率密度为 $f(x, y)$,由于
\begin{equation}
F_X(x) = F(x, \infty) = \int_{-\infty}^x \big[\int_{-infty}^{\infty} f(x, y)dy \big]dx
\end{equation}
由前面 $(4.1)$ 式知道,$X$ 是一个连续型随机变量,且其概率密度为
\begin{equation}
f_X(x) = \int_{-infty}^{\infty} f(x, y)dy \tag{2.3}
\end{equation}
同样,$Y$ 也是一个连续型随机变量,其概率密度为
\begin{equation}
f_Y(y) = \int_{-infty}^{\infty} f(x, y)dx \tag{2.4}
\end{equation}
分别称 $f_X(x)$,f_Y(y)$ 为 $(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘概率密度。
设二维随机变量 $(X, Y)$ 的概率密度为
\begin{equation}
f(x, y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} exp \big\{ \frac{-1}{2(1-\rho^2)} \big[ \frac{(x – \mu_1)^2}{\sigma_1^2} – 2\rho\frac{(x – \mu_1)(y – \mu_2)}{\sigma_1\sigma_2} + \frac{(y – \mu_2)^2}{\sigma_2^2} \big] \big\}
\end{equation}
其中 $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$ 都是常数,且 $\sigma_1 > 0, \sigma_2 > 0, -1 < \rho < 1$。称 $(X, Y)$ 为服从参数为 $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$ 的二维正态分布,记为 $(X, Y) ~ N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$。其边缘概率密度
\begin{equation}
f_X(x) = \frac{1}{2\pi\sigma_1}e^{-\frac{(x – \mu_1)^2}{2\sigma_1^2}}, -\infty < x < \infty \\
f_Y(y) = \frac{1}{2\pi\sigma_1}e^{-\frac{(y – \mu_2)^2}{2\sigma_2^2}}, -\infty < y < \infty
\end{equation}
可以看到二维正态分布的两个边缘分布都是一维正态分布,并且都不依赖于参数 $\rho$,亦即对于给定的 $\mu_1, \mu_2, \sigma_1, \sigma_2,$,不同的 $\rho$ 对应不同的二维正态分布,他们的边缘分布却都是一样的。这一事实说明,单由关于 $X$ 和关于 $Y$ 的边缘分布,一般来说是不能确定随机变量 $X$ 和 $Y$ 的联合分布的。
3. 条件分布
设 $(X, Y)$ 是二维离散型随机变量,其分布律为
\begin{equation}
P{X = x_i, Y = y_j} = p_{ij}, \;\; i,j = 1,2,\cdots
\end{equation}
$(X, Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布率分别为
\begin{equation}
P\{X = x_i\} = p_{i \cdot} = \sum_{j=1}^{\infty} p_{ij}, \;\; i = 1,2,\cdots \\
P\{Y = y_j\} = p_{\cdot j} = \sum_{i=1}^{\infty} p_{ij}, \;\; j = 1,2,\cdots
\end{equation}
设 $p_{\cdot j} > 0$,考虑在事件 $\{Y = y_j\}$ 已发生的条件下事件 $\{X = x_i\}$ 发生的概率,也就是求事件
\begin{equation}
\{X = x_i | Y = y_j\}, \;\; i = 1,2,\cdots
\end{equation}
的概率。由条件概率公式,可得
\begin{equation}
P\{X = x_i | Y = y_j\} = \frac{P\{X = x_i, Y = y_j\}}{P\{Y = y_j\}} = \frac{p_{ij}}{p_{\cdot j}}, \;\; i = 1,2,\cdots
\end{equation}
易知上述条件概率具有分布律的性质:
- $P\{X = x_i | Y = y_j\} \geq 0$
- $\sum\limits_{i=1}^{\infty}P\{X = x_i | Y = y_j\} = \sum\limits_{i=1}^{\infty} \frac{p_{ij}}{p_{\cdot j}} = \frac{1}{p_{\cdot j}} \sum\limits_{i=1}^{\infty} p_{ij} = \frac{p_{\cdot j}}{p_{\cdot j}} = 1$
定义 设 $(X, Y)$ 是二维离散型随机变量,对于固定的 $j$,若 $P\{Y = y_j\} > 0$,则称
\begin{equation}
P\{X = x_i | Y = y_j\} = \frac{P\{X = x_i, Y = y_j\}}{P\{Y = y_j\}} = \frac{p_{ij}}{p_{\cdot j}}, \;\; i = 1,2,\cdots \tag{3.1}
\end{equation}
为在 $Y = y_j$ 条件下随机变量 $X$ 的条件分布律。
同样,对于固定的 $i$,若 $P\{X = x_i\} > 0$,则称
\begin{equation}
P\{Y = y_j | X = x_i\} = \frac{P\{X = x_i, Y = y_j\}}{P\{X = X_i\}} = \frac{p_{ij}}{p_{i \cdot}}, \;\; j = 1,2,\cdots \tag{3.2}
\end{equation}
为在 $X = X_i$ 条件下随机变量 $Y$ 的条件分布律。
现设 $(X, Y)$ 是二维连续型随机变量,这是由于对任意 $x, y$ 有 $P\{X = x\} = 0$,$P\{Y = y\} = 0$,因此就不能直接用条件概率公式引入“条件分布函数”了。
设 $(X, Y)$ 的概率密度为 $f(x, y)$,$(X, Y)$ 关于 $Y$ 的边缘概率密度为 $f_Y(y)$。给定 $y$,对于任意固定的 $\varepsilon > 0$,对于任意 $x$,考虑条件概率
\begin{equation}
P\{X \leq x | y < Y \leq y + \varepsilon \}
\end{equation}
设 $P\{y < Y \leq y + \varepsilon \} > 0$,则有
\begin{align}
P\{X \leq x | y < Y \leq y + \varepsilon \} &= \frac{P\{X \leq x, y < Y \leq y + \varepsilon \}}{P\{y < Y \leq y + \varepsilon \}} \\
&= \frac{\int_{-\infty}^{x}\big[ \int_y^{y + \varepsilon} f(x, y)dy \big] dx}{\int_y^{y + \varepsilon}f_Y(y)dy}
\end{align}
在某些条件下,当 $\varepsilon$ 很小时,上式右端分子、分布分别近似于 $\varepsilon \int_{-\infty}^x f(x, y)dx$ 和 $\varepsilon f_Y(y)$,于是当 $\varepsilon$ 很小时,有
\begin{equation}
P\{X \leq x | y < Y \leq y + \varepsilon \} \approx \frac{\varepsilon \int_{-\infty}^x f(x, y)dx}{\varepsilon f_Y(y)} = \int_{-\infty}^x \frac{f(x, y)}{f_Y(y)}dx \tag{3.3}
\end{equation}
与一维随机变量概率密度的定义式前文 $(4.1)$ 式比较,给出以下的定义。
定义 设二维随机变量 $(X, Y)$ 的概率密度为 $f(x, y)$,$(X, Y)$ 关于 $Y$ 的边缘概率密度为 $f_Y(y)$。若对于固定的 $y$,$f_Y(y) > 0$,则称 $\frac{f(x, y)}{f_Y(y)}$ 为在 $Y = y$ 的条件下 $X$ 的条件概率密度,记为
\begin{equation}
f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} \tag{3.4}
\end{equation}
条件概率密度满足条件
\begin{equation}
f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} \geq 0 \\
\int_{-\infty}^{\infty} f_{X|Y}(x|y) dx = \int_{-\infty}^{\infty} \frac{f(x, y)}{f_Y(y)} dx = \frac{1}{f_Y(y)} \int_{-\infty}^{\infty} f(x, y) dx = 1
\end{equation}
称 $\int_{-\infty}^x f_{X|Y}(x|y) dx = \int_{-\infty}^x \frac{f(x, y)}{f_Y(y)} dx$ 为在 $Y = y$ 的条件下 $X$ 的条件分布函数,记为 $P\{X \leq x | Y = y\}$ 或 $F_{X|Y}(x|y)$,即
\begin{equation}
F_{X|Y}(x|y) = P\{X \leq x | Y = y\} = \int_{-\infty}^x \frac{f(x, y)}{f_Y(y)} dx \tag{3.5}
\end{equation}
类似地,可以定义 $f_{Y|X}(y|x) = \frac{f(x, y)}{f_X(x)}$ 和 $F_{X|Y}(x|y) = \int_{-\infty}^y \frac{f(x, y)}{f_X(x)} dy$。
由 $(3.3)$ 知道,当 $\varepsilon$ 很小时,有
\begin{equation}
P\{X \leq x | y < Y \leq y + \varepsilon \} \approx \int_{-\infty}^x f_{X|Y}(x|y)dx = F_{X|Y}(x|y)
\end{equation}
上式说明了条件概率密度和条件分布函数的含义。