概率论 Cheat Sheet 24:条件期望
Contents [show]
1. 定义
当 X 和 Y 的联合分布为离散分布时,对于 P{Y=y}>0 的 y 值,给定 Y=y 之下,X 的条件分布列定义为
pX|Y(x|y)=P{X=x|Y=y}=p(x,y)pY(y)
对于所有满足 pY(y)>0 的 y,X 在给定 Y=y 之下的条件期望为
E[X|Y=y]=∑xxP{X=x|Y=y}=∑xxpX|Y(x|y)
类似地,当 X 和 Y 具有连续型联合分布 f(x,y) 时,对于给定的 Y=y,当 fY(y)>0 时,X 的条件密度函数定义为
fX|Y(x|y)=f(x,y)fY(y)
对于所有满足 fY(y)>0 的 y,X 在给定 Y=y 之下的条件期望为
E[X|Y=y]=∫∞−∞xfX|Y(x|y)dx
正如条件概率满足概率的所有性质,条件期望也满足通常期望的性质,如
E[g(X)|Y=y]={∑xg(x)pX|Y(x|y)离散情形∫∞−∞g(x)fX|Y(x|y)dx连续情形
E[n∑i=1Xi|Y=y]=n∑i=1E[Xi|Y=y]
给定 Y=y 条件下的期望可以看成是减小了样本空间中的普通期望,这个减小的样本空间由满足 {Y=y} 条件下的那些样本点组成。
2. 通过取条件计算期望
记 E[X|Y] 表示随机变量 Y 的函数,它在 Y=y 处的值为 E[X|Y=y],注意 E[X|Y] 本身是一个随机变量。
命题
E[X]=E[E[X|Y]]
如果 Y 是离散型随机变量,则式 (5) 变成
E[X]=∑yE[X|Y=y]P{Y=y}
如果 Y 是连续型随机变量,密度函数为 fY(y),则式 (5) 变成
E[X]=∫∞−∞E[X|Y=y]fY(y)dy
当 X 和 Y 为离散型时,式 (6) 等号右边可以写为
∑yE[X|Y=y]P{Y=y}=∑y∑xxP{X=x|Y=y}P{Y=y}=∑y∑xxP{X=x,Y=y}P{Y=y}P{Y=y}=∑y∑xxP{X=x,Y=y}=∑xx∑yP{X=x,Y=y}=∑xP{X=x}=E[X]
于是式 (6) 成立。
式 (6) 中的 E[X] 可以看成是条件期望 E[X|Y=y] 的加权平均,权重是事件 {Y=y} 的概率。这个结果对计算随机变量的期望十分重要,可以让我们首先计算某随机变量在给定条件之下的条件期望(这通常比较容易计算),然后再对条件期望求平均。
3. 通过取条件计算概率
取条件期望的方法不仅可以用于计算一个随机变量的期望,还可以用于计算概率。设 E 为一随机事件,令 X 为 E 的示性变量,即
X={1若E发生0若E不发生
由 X 的定义可得
E[X]=P(E)
E[X|Y=y]=P(E|Y=y)对任意随机变量Y
由式 (6)、(7),可得
P(E)={∑yP(E|Y=y)P(Y=y)Y为离散型随机变量∫∞−∞P(E|Y=y)fY(y)dyY为连续型随机变量
如果 Y 式离散型随机变量,且取值为 y1,⋯,yn,定义事件 Fi={Y=yi},则式 (8) 变成
P(E)=n∑i=1P(E|Fi)P(Fi)
其中 F1,⋯,Fn 为互不相容事件,且这些事件的并集构成一个样本空间。
4. 条件方差
类似 Y=y 条件下 X 的条件期望的定义,定义 Y=y 条件下 X 的条件方差为
\begin{equation} \mathrm{Var}(X|Y) \equiv E[(X – E[X|Y]^2)|Y] \tag{9} \end{equation}
即 \mathrm{Var}(X|Y) 是 X 和它的条件期望之差的平方的(条件)期望值。 \mathrm{Var}(X|Y) 与通常的方差的定义完全一致,只不过将求期望换成了求在 Y 已知的条件下的条件期望。
条件方差 \mathrm{Var}(X|Y) 和无条件方差 \mathrm{Var}(X) 之间具有某种很有用的关系,利用这些关系可以很方便地计算一个随机变量的方差。首先,与普通方差的公式 \mathrm{Var}(X) = E[X^2] – (E[X])^2 一样,条件方差也有
\begin{equation} \mathrm{Var}(X|Y) = E[X^2|Y] – (E[X|Y])^2 \tag{10} \end{equation}
由此得到
\begin{equation} E[\mathrm{Var}(X|Y)] = E[E[X^2|Y]] – E[(E[X|Y])^2] = E[X^2] – E[E[X|Y]^2] \tag{11} \end{equation}
同时
\begin{equation} \mathrm{Var}(E[X|Y]) = E[E[X|Y]^2] – (E[E[X|Y]])^2 = E[E[X|Y]^2] – (E[X])^2 \tag{12} \end{equation}
将式 (11) 和式 (12) 相加,得
命题 条件方差公式
\begin{equation} \mathrm{Var}(X) = E[\mathrm{Var}(X|Y)] + \mathrm{Var}(E[X|Y]) \tag{13} \end{equation}
5. 条件期望及预测
在实际问题中,有时会遇到这样的情况:某人观测到随机变量 X 的值,然后基于 X 的值对第二个随机变量 Y 进行预测。令 g(X) 表示预测值,即当观测到 X 的值 x 之后,g(x) 就是 Y 的预测值。我们希望选择合适的 g 使得 g(X) 最接近 Y,选择 g 的一个准则是极小化 E[(Y – g(X))^2]。可以证明,在这个准则之下,Y 的最优预测值为 g(X) = E[Y|X]。计算 E[(Y – g(X))^2 | X] 如下
\begin{align} E[(Y – g(X))^2 | X] &= E\big[ (Y – E[Y|X] + E[Y|X] – g(X))^2 | X \big] \\ &= E\big[(Y – E[Y|X])^2 | X\big] + E\big[(E[Y|X] – g(X))^2 | X\big] \\ & + 2E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big] \end{align}
对于给定的 X,E[Y|X] – g(X) 是 X 的函数,可以看成是一个常数,故上式最后一项
\begin{align} E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big] &= (E[Y|X] – g(X))E\big[Y – E[Y|X] | X\big] \\ &= (E[Y|X] – g(X))(E[Y|X] – E[Y|X]) = 0 \end{align}
故
\begin{equation} E[(Y – g(X))^2 | X] \geq E\big[(Y – E[Y|X])^2 | X\big] \end{equation}
对上式两边求期望,得到如下命题
命题
\begin{equation} E[(Y – g(X))^2] \geq E[(Y – E[Y|X])^2] \tag{14} \end{equation}
式 (14) 也可以这样来理解:容易证明 E[(Y – c)^2] 在 c = E[Y] 时达到最小值,因此在没有数据可用时,在均方误差最小的意义下,Y 的最优预测就是 E[Y]。现在假设得到了 X 的观察值 x,此时预测问题与没有数据时的预测问题完全一样,只是原来 Y 的期望改为在事件 \{X = x\} 之下的条件期望。因此 Y 的最优预测是 Y 在 X = x 之下的条件期望。