概率论 Cheat Sheet 24：条件期望

Author: nex3z 2019-01-26

Math

Probability

Contents

1. 定义
2. 通过取条件计算期望
3. 通过取条件计算概率
4. 条件方差
5. 条件期望及预测

1. 定义

　　当 $X$ 和 $Y$ 的联合分布为离散分布时，对于 $P\{Y = y\} > 0$ 的 $y$ 值，给定 $Y = y$ 之下，$X$ 的条件分布列定义为

\begin{equation}
p_{X|Y}(x|y) = P\{X = x | Y = y\} = \frac{p(x, y)}{p_Y(y)} \tag{1}
\end{equation}

对于所有满足 $p_Y(y) > 0$ 的 $y$，$X$ 在给定 $Y = y$ 之下的条件期望为

\begin{equation}
E[X|Y = y] = \sum_x x P\{X = x | Y = y\} = \sum_x x p_{X|Y}(x|y) \tag{2}
\end{equation}

　　类似地，当 $X$ 和 $Y$ 具有连续型联合分布 $f(x, y)$ 时，对于给定的 $Y = y$，当 $f_Y(y) > 0$ 时，$X$ 的条件密度函数定义为

\begin{equation}
f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} \tag{3}
\end{equation}

对于所有满足 $f_Y(y) > 0$ 的 $y$，$X$ 在给定 $Y = y$ 之下的条件期望为

\begin{equation}
E[X|Y = y] = \int_{-\infty}^{\infty} x f_{X|Y}(x|y) \mathrm{d}x \tag{4}
\end{equation}

　　正如条件概率满足概率的所有性质，条件期望也满足通常期望的性质，如

\begin{equation}
E[g(X)|Y = y] = \begin{cases} \sum_x g(x) p_{X|Y}(x|y) & 离散情形 \\
\int_{-\infty}^{\infty} g(x) f_{X|Y}(x|y) \mathrm{d}x & 连续情形\end{cases}
\end{equation}

\begin{equation}
E[\sum_{i=1}^n X_i | Y = y] = \sum_{i=1}^n E[X_i | Y = y]
\end{equation}

给定 $Y = y$ 条件下的期望可以看成是减小了样本空间中的普通期望，这个减小的样本空间由满足 $\{Y = y\}$ 条件下的那些样本点组成。

2. 通过取条件计算期望

　　记 $E[X|Y]$ 表示随机变量 $Y$ 的函数，它在 $Y = y$ 处的值为 $E[X|Y = y]$，注意 $E[X|Y]$ 本身是一个随机变量。

　　命题

\begin{equation}
E[X] = E[E[X|Y]] \tag{5}
\end{equation}

如果 $Y$ 是离散型随机变量，则式 $(5)$ 变成

\begin{equation}
E[X] = \sum_y E[X|Y = y] P\{Y = y\} \tag{6}
\end{equation}

如果 $Y$ 是连续型随机变量，密度函数为 $f_Y(y)$，则式 $(5)$ 变成

\begin{equation}
E[X] = \int_{-\infty}^{\infty} E[X|Y = y] f_Y(y) \mathrm{d}y \tag{7}
\end{equation}

　　当 $X$ 和 $Y$ 为离散型时，式 $(6)$ 等号右边可以写为

\begin{align}
\sum_y E[X|Y = y] P\{Y = y\} &= \sum_y \sum_x x P\{X = x|Y = y\} P\{Y = y\} \\
&= \sum_y \sum_x x \frac{P\{X = x, Y = y\}}{P\{Y = y\}} P\{Y = y\} \\
&= \sum_y \sum_x x P\{X = x, Y = y\} \\
&= \sum_x x \sum_y P\{X = x, Y = y\} = \sum_x P\{X = x\} \\
&= E[X]
\end{align}

于是式 $(6)$ 成立。

　　式 $(6)$ 中的 $E[X]$ 可以看成是条件期望 $E[X|Y = y]$ 的加权平均，权重是事件 $\{Y = y\}$ 的概率。这个结果对计算随机变量的期望十分重要，可以让我们首先计算某随机变量在给定条件之下的条件期望（这通常比较容易计算），然后再对条件期望求平均。

3. 通过取条件计算概率

　　取条件期望的方法不仅可以用于计算一个随机变量的期望，还可以用于计算概率。设 $E$ 为一随机事件，令 $X$ 为 $E$ 的示性变量，即

\begin{equation}
X =\begin{cases}1 & 若 \; E \; 发生 \\ 0 & 若 \; E \; 不发生 \end{cases}
\end{equation}

由 $X$ 的定义可得

\begin{equation}
E[X] = P(E)
\end{equation}

\begin{equation}
E[X|Y = y] = P(E|Y = y) \qquad 对任意随机变量 \; Y
\end{equation}

由式 $(6)$、$(7)$，可得

\begin{equation}
P(E) = \begin{cases} \sum_y P(E|Y = y) P(Y = y) & Y \; 为离散型随机变量 \\
\int_{-\infty}^{\infty} P(E|Y = y) f_Y(y) \mathrm{d}y & Y \; 为连续型随机变量 \end{cases} \tag{8}
\end{equation}

如果 $Y$ 式离散型随机变量，且取值为 $y_1, \cdots, y_n$，定义事件 $F_i = \{Y = y_i\}$，则式 $(8)$ 变成

\begin{equation}
P(E) = \sum_{i=1}^n P(E|F_i) P(F_i)
\end{equation}

其中 $F_1, \cdots, F_n$ 为互不相容事件，且这些事件的并集构成一个样本空间。

4. 条件方差

　　类似 $Y = y$ 条件下 $X$ 的条件期望的定义，定义 $Y = y$ 条件下 $X$ 的条件方差为

\begin{equation}
\mathrm{Var}(X|Y) \equiv E[(X – E[X|Y]^2)|Y] \tag{9}
\end{equation}

即 $\mathrm{Var}(X|Y)$ 是 $X$ 和它的条件期望之差的平方的（条件）期望值。 $\mathrm{Var}(X|Y)$ 与通常的方差的定义完全一致，只不过将求期望换成了求在 $Y$ 已知的条件下的条件期望。

　　条件方差 $\mathrm{Var}(X|Y)$ 和无条件方差 $\mathrm{Var}(X)$ 之间具有某种很有用的关系，利用这些关系可以很方便地计算一个随机变量的方差。首先，与普通方差的公式 $\mathrm{Var}(X) = E[X^2] – (E[X])^2$ 一样，条件方差也有

\begin{equation}
\mathrm{Var}(X|Y) = E[X^2|Y] – (E[X|Y])^2 \tag{10}
\end{equation}

由此得到

\begin{equation}
E[\mathrm{Var}(X|Y)] = E[E[X^2|Y]] – E[(E[X|Y])^2] = E[X^2] – E[E[X|Y]^2] \tag{11}
\end{equation}

同时

\begin{equation}
\mathrm{Var}(E[X|Y]) = E[E[X|Y]^2] – (E[E[X|Y]])^2 = E[E[X|Y]^2] – (E[X])^2 \tag{12}
\end{equation}

将式 $(11)$ 和式 $(12)$ 相加，得

　　命题　条件方差公式

\begin{equation}
\mathrm{Var}(X) = E[\mathrm{Var}(X|Y)] + \mathrm{Var}(E[X|Y]) \tag{13}
\end{equation}

5. 条件期望及预测

　　在实际问题中，有时会遇到这样的情况：某人观测到随机变量 $X$ 的值，然后基于 $X$ 的值对第二个随机变量 $Y$ 进行预测。令 $g(X)$ 表示预测值，即当观测到 $X$ 的值 $x$ 之后，$g(x)$ 就是 $Y$ 的预测值。我们希望选择合适的 $g$ 使得 $g(X)$ 最接近 $Y$，选择 $g$ 的一个准则是极小化 $E[(Y – g(X))^2]$。可以证明，在这个准则之下，$Y$ 的最优预测值为 $g(X) = E[Y|X]$。计算 $E[(Y – g(X))^2 | X]$ 如下

\begin{align}
E[(Y – g(X))^2 | X] &= E\big[ (Y – E[Y|X] + E[Y|X] – g(X))^2 | X \big] \\
&= E\big[(Y – E[Y|X])^2 | X\big] + E\big[(E[Y|X] – g(X))^2 | X\big] \\
& + 2E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big]
\end{align}

对于给定的 $X$，$E[Y|X] – g(X)$ 是 $X$ 的函数，可以看成是一个常数，故上式最后一项

\begin{align}
E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big] &= (E[Y|X] – g(X))E\big[Y – E[Y|X] | X\big] \\
&= (E[Y|X] – g(X))(E[Y|X] – E[Y|X]) = 0
\end{align}

故

\begin{equation}
E[(Y – g(X))^2 | X] \geq E\big[(Y – E[Y|X])^2 | X\big]
\end{equation}

对上式两边求期望，得到如下命题

　　命题

\begin{equation}
E[(Y – g(X))^2] \geq E[(Y – E[Y|X])^2] \tag{14}
\end{equation}

　　式 $(14)$ 也可以这样来理解：容易证明 $E[(Y – c)^2]$ 在 $c = E[Y]$ 时达到最小值，因此在没有数据可用时，在均方误差最小的意义下，$Y$ 的最优预测就是 $E[Y]$。现在假设得到了 $X$ 的观察值 $x$，此时预测问题与没有数据时的预测问题完全一样，只是原来 $Y$ 的期望改为在事件 $\{X = x\}$ 之下的条件期望。因此 $Y$ 的最优预测是 $Y$ 在 $X = x$ 之下的条件期望。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31