概率论 Cheat Sheet 24:条件期望

1. 定义

  当 $X$ 和 $Y$ 的联合分布为离散分布时,对于 $P\{Y = y\} > 0$ 的 $y$ 值,给定 $Y = y$ 之下,$X$ 的条件分布列定义为

\begin{equation}
p_{X|Y}(x|y) = P\{X = x | Y = y\} = \frac{p(x, y)}{p_Y(y)} \tag{1}
\end{equation}

对于所有满足 $p_Y(y) > 0$ 的 $y$,$X$ 在给定 $Y = y$ 之下的条件期望为

\begin{equation}
E[X|Y = y] = \sum_x x P\{X = x | Y = y\} = \sum_x x p_{X|Y}(x|y) \tag{2}
\end{equation}

  类似地,当 $X$ 和 $Y$ 具有连续型联合分布 $f(x, y)$ 时,对于给定的 $Y = y$,当 $f_Y(y) > 0$ 时,$X$ 的条件密度函数定义为

\begin{equation}
f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} \tag{3}
\end{equation}

对于所有满足 $f_Y(y) > 0$ 的 $y$,$X$ 在给定 $Y = y$ 之下的条件期望为

\begin{equation}
E[X|Y = y] = \int_{-\infty}^{\infty} x f_{X|Y}(x|y) \mathrm{d}x \tag{4}
\end{equation}

  正如条件概率满足概率的所有性质,条件期望也满足通常期望的性质,如

\begin{equation}
E[g(X)|Y = y] = \begin{cases} \sum_x g(x) p_{X|Y}(x|y) & 离散情形 \\
\int_{-\infty}^{\infty} g(x) f_{X|Y}(x|y) \mathrm{d}x & 连续情形\end{cases}
\end{equation}

\begin{equation}
E[\sum_{i=1}^n X_i | Y = y] = \sum_{i=1}^n E[X_i | Y = y]
\end{equation}

给定 $Y = y$ 条件下的期望可以看成是减小了样本空间中的普通期望,这个减小的样本空间由满足 $\{Y = y\}$ 条件下的那些样本点组成。

2. 通过取条件计算期望

  记 $E[X|Y]$ 表示随机变量 $Y$ 的函数,它在 $Y = y$ 处的值为 $E[X|Y = y]$,注意 $E[X|Y]$ 本身是一个随机变量。

  命题

\begin{equation}
E[X] = E[E[X|Y]] \tag{5}
\end{equation}

如果 $Y$ 是离散型随机变量,则式 $(5)$ 变成

\begin{equation}
E[X] = \sum_y E[X|Y = y] P\{Y = y\} \tag{6}
\end{equation}

如果 $Y$ 是连续型随机变量,密度函数为 $f_Y(y)$,则式 $(5)$ 变成

\begin{equation}
E[X] = \int_{-\infty}^{\infty} E[X|Y = y] f_Y(y) \mathrm{d}y \tag{7}
\end{equation}

  当 $X$ 和 $Y$ 为离散型时,式 $(6)$ 等号右边可以写为

\begin{align}
\sum_y E[X|Y = y] P\{Y = y\} &= \sum_y \sum_x x P\{X = x|Y = y\} P\{Y = y\} \\
&= \sum_y \sum_x x \frac{P\{X = x, Y = y\}}{P\{Y = y\}} P\{Y = y\} \\
&= \sum_y \sum_x x P\{X = x, Y = y\} \\
&= \sum_x x \sum_y P\{X = x, Y = y\} = \sum_x P\{X = x\} \\
&= E[X]
\end{align}

于是式 $(6)$ 成立。

  式 $(6)$ 中的 $E[X]$ 可以看成是条件期望 $E[X|Y = y]$ 的加权平均,权重是事件 $\{Y = y\}$ 的概率。这个结果对计算随机变量的期望十分重要,可以让我们首先计算某随机变量在给定条件之下的条件期望(这通常比较容易计算),然后再对条件期望求平均。

3. 通过取条件计算概率

  取条件期望的方法不仅可以用于计算一个随机变量的期望,还可以用于计算概率。设 $E$ 为一随机事件,令 $X$ 为 $E$ 的示性变量,即

\begin{equation}
X =\begin{cases}1 & 若 \; E \; 发生 \\ 0 & 若 \; E \; 不发生 \end{cases}
\end{equation}

由 $X$ 的定义可得

\begin{equation}
E[X] = P(E)
\end{equation}

\begin{equation}
E[X|Y = y] = P(E|Y = y) \qquad 对任意随机变量 \; Y
\end{equation}

由式 $(6)$、$(7)$,可得

\begin{equation}
P(E) = \begin{cases} \sum_y P(E|Y = y) P(Y = y) & Y \; 为离散型随机变量 \\
\int_{-\infty}^{\infty} P(E|Y = y) f_Y(y) \mathrm{d}y & Y \; 为连续型随机变量 \end{cases} \tag{8}
\end{equation}

如果 $Y$ 式离散型随机变量,且取值为 $y_1, \cdots, y_n$,定义事件 $F_i = \{Y = y_i\}$,则式 $(8)$ 变成

\begin{equation}
P(E) = \sum_{i=1}^n P(E|F_i) P(F_i)
\end{equation}

其中 $F_1, \cdots, F_n$ 为互不相容事件,且这些事件的并集构成一个样本空间。

4. 条件方差

  类似 $Y = y$ 条件下 $X$ 的条件期望的定义,定义 $Y = y$ 条件下 $X$ 的条件方差为

\begin{equation}
\mathrm{Var}(X|Y) \equiv E[(X – E[X|Y]^2)|Y] \tag{9}
\end{equation}

即 $\mathrm{Var}(X|Y)$ 是 $X$ 和它的条件期望之差的平方的(条件)期望值。 $\mathrm{Var}(X|Y)$ 与通常的方差的定义完全一致,只不过将求期望换成了求在 $Y$ 已知的条件下的条件期望。

  条件方差 $\mathrm{Var}(X|Y)$ 和无条件方差 $\mathrm{Var}(X)$ 之间具有某种很有用的关系,利用这些关系可以很方便地计算一个随机变量的方差。首先,与普通方差的公式 $\mathrm{Var}(X) = E[X^2] – (E[X])^2$ 一样,条件方差也有

\begin{equation}
\mathrm{Var}(X|Y) = E[X^2|Y] – (E[X|Y])^2 \tag{10}
\end{equation}

由此得到

\begin{equation}
E[\mathrm{Var}(X|Y)] = E[E[X^2|Y]] – E[(E[X|Y])^2] = E[X^2] – E[E[X|Y]^2] \tag{11}
\end{equation}

同时

\begin{equation}
\mathrm{Var}(E[X|Y]) = E[E[X|Y]^2] – (E[E[X|Y]])^2 = E[E[X|Y]^2] – (E[X])^2 \tag{12}
\end{equation}

将式 $(11)$ 和式 $(12)$ 相加,得

  命题 条件方差公式

\begin{equation}
\mathrm{Var}(X) = E[\mathrm{Var}(X|Y)] + \mathrm{Var}(E[X|Y]) \tag{13}
\end{equation}

5. 条件期望及预测

  在实际问题中,有时会遇到这样的情况:某人观测到随机变量 $X$ 的值,然后基于 $X$ 的值对第二个随机变量 $Y$ 进行预测。令 $g(X)$ 表示预测值,即当观测到 $X$ 的值 $x$ 之后,$g(x)$ 就是 $Y$ 的预测值。我们希望选择合适的 $g$ 使得 $g(X)$ 最接近 $Y$,选择 $g$ 的一个准则是极小化 $E[(Y – g(X))^2]$。可以证明,在这个准则之下,$Y$ 的最优预测值为 $g(X) = E[Y|X]$。计算 $E[(Y – g(X))^2 | X]$ 如下

\begin{align}
E[(Y – g(X))^2 | X] &= E\big[ (Y – E[Y|X] + E[Y|X] – g(X))^2 | X \big] \\
&= E\big[(Y – E[Y|X])^2 | X\big] + E\big[(E[Y|X] – g(X))^2 | X\big] \\
& + 2E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big]
\end{align}

对于给定的 $X$,$E[Y|X] – g(X)$ 是 $X$ 的函数,可以看成是一个常数,故上式最后一项

\begin{align}
E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big] &= (E[Y|X] – g(X))E\big[Y – E[Y|X] | X\big] \\
&= (E[Y|X] – g(X))(E[Y|X] – E[Y|X]) = 0
\end{align}

\begin{equation}
E[(Y – g(X))^2 | X] \geq E\big[(Y – E[Y|X])^2 | X\big]
\end{equation}

对上式两边求期望,得到如下命题

  命题

\begin{equation}
E[(Y – g(X))^2] \geq E[(Y – E[Y|X])^2] \tag{14}
\end{equation}

  式 $(14)$ 也可以这样来理解:容易证明 $E[(Y – c)^2]$ 在 $c = E[Y]$ 时达到最小值,因此在没有数据可用时,在均方误差最小的意义下,$Y$ 的最优预测就是 $E[Y]$。现在假设得到了 $X$ 的观察值 $x$,此时预测问题与没有数据时的预测问题完全一样,只是原来 $Y$ 的期望改为在事件 $\{X = x\}$ 之下的条件期望。因此 $Y$ 的最优预测是 $Y$ 在 $X = x$ 之下的条件期望。