概率论 Cheat Sheet 24:条件期望
Contents [show]
1. 定义
当 X 和 Y 的联合分布为离散分布时,对于 P{Y=y}>0 的 y 值,给定 Y=y 之下,X 的条件分布列定义为
pX|Y(x|y)=P{X=x|Y=y}=p(x,y)pY(y)
对于所有满足 pY(y)>0 的 y,X 在给定 Y=y 之下的条件期望为
E[X|Y=y]=∑xxP{X=x|Y=y}=∑xxpX|Y(x|y)
类似地,当 X 和 Y 具有连续型联合分布 f(x,y) 时,对于给定的 Y=y,当 fY(y)>0 时,X 的条件密度函数定义为
fX|Y(x|y)=f(x,y)fY(y)
对于所有满足 fY(y)>0 的 y,X 在给定 Y=y 之下的条件期望为
E[X|Y=y]=∫∞−∞xfX|Y(x|y)dx
正如条件概率满足概率的所有性质,条件期望也满足通常期望的性质,如
E[g(X)|Y=y]={∑xg(x)pX|Y(x|y)离散情形∫∞−∞g(x)fX|Y(x|y)dx连续情形
E[n∑i=1Xi|Y=y]=n∑i=1E[Xi|Y=y]
给定 Y=y 条件下的期望可以看成是减小了样本空间中的普通期望,这个减小的样本空间由满足 {Y=y} 条件下的那些样本点组成。
2. 通过取条件计算期望
记 E[X|Y] 表示随机变量 Y 的函数,它在 Y=y 处的值为 E[X|Y=y],注意 E[X|Y] 本身是一个随机变量。
命题
E[X]=E[E[X|Y]]
如果 Y 是离散型随机变量,则式 (5) 变成
E[X]=∑yE[X|Y=y]P{Y=y}
如果 Y 是连续型随机变量,密度函数为 fY(y),则式 (5) 变成
E[X]=∫∞−∞E[X|Y=y]fY(y)dy
当 X 和 Y 为离散型时,式 (6) 等号右边可以写为
∑yE[X|Y=y]P{Y=y}=∑y∑xxP{X=x|Y=y}P{Y=y}=∑y∑xxP{X=x,Y=y}P{Y=y}P{Y=y}=∑y∑xxP{X=x,Y=y}=∑xx∑yP{X=x,Y=y}=∑xP{X=x}=E[X]
于是式 (6) 成立。
式 (6) 中的 E[X] 可以看成是条件期望 E[X|Y=y] 的加权平均,权重是事件 {Y=y} 的概率。这个结果对计算随机变量的期望十分重要,可以让我们首先计算某随机变量在给定条件之下的条件期望(这通常比较容易计算),然后再对条件期望求平均。
3. 通过取条件计算概率
取条件期望的方法不仅可以用于计算一个随机变量的期望,还可以用于计算概率。设 E 为一随机事件,令 X 为 E 的示性变量,即
X={1若E发生0若E不发生
由 X 的定义可得
E[X]=P(E)
E[X|Y=y]=P(E|Y=y)对任意随机变量Y
由式 (6)、(7),可得
P(E)={∑yP(E|Y=y)P(Y=y)Y为离散型随机变量∫∞−∞P(E|Y=y)fY(y)dyY为连续型随机变量
如果 Y 式离散型随机变量,且取值为 y1,⋯,yn,定义事件 Fi={Y=yi},则式 (8) 变成
P(E)=n∑i=1P(E|Fi)P(Fi)
其中 F1,⋯,Fn 为互不相容事件,且这些事件的并集构成一个样本空间。
4. 条件方差
类似 Y=y 条件下 X 的条件期望的定义,定义 Y=y 条件下 X 的条件方差为
Var(X|Y)≡E[(X–E[X|Y]2)|Y]
即 Var(X|Y) 是 X 和它的条件期望之差的平方的(条件)期望值。 Var(X|Y) 与通常的方差的定义完全一致,只不过将求期望换成了求在 Y 已知的条件下的条件期望。
条件方差 Var(X|Y) 和无条件方差 Var(X) 之间具有某种很有用的关系,利用这些关系可以很方便地计算一个随机变量的方差。首先,与普通方差的公式 Var(X)=E[X2]–(E[X])2 一样,条件方差也有
Var(X|Y)=E[X2|Y]–(E[X|Y])2
由此得到
E[Var(X|Y)]=E[E[X2|Y]]–E[(E[X|Y])2]=E[X2]–E[E[X|Y]2]
同时
Var(E[X|Y])=E[E[X|Y]2]–(E[E[X|Y]])2=E[E[X|Y]2]–(E[X])2
将式 (11) 和式 (12) 相加,得
命题 条件方差公式
Var(X)=E[Var(X|Y)]+Var(E[X|Y])
5. 条件期望及预测
在实际问题中,有时会遇到这样的情况:某人观测到随机变量 X 的值,然后基于 X 的值对第二个随机变量 Y 进行预测。令 g(X) 表示预测值,即当观测到 X 的值 x 之后,g(x) 就是 Y 的预测值。我们希望选择合适的 g 使得 g(X) 最接近 Y,选择 g 的一个准则是极小化 E[(Y–g(X))2]。可以证明,在这个准则之下,Y 的最优预测值为 g(X)=E[Y|X]。计算 E[(Y–g(X))2|X] 如下
E[(Y–g(X))2|X]=E[(Y–E[Y|X]+E[Y|X]–g(X))2|X]=E[(Y–E[Y|X])2|X]+E[(E[Y|X]–g(X))2|X]+2E[(Y–E[Y|X])(E[Y|X]–g(X))|X]
对于给定的 X,E[Y|X]–g(X) 是 X 的函数,可以看成是一个常数,故上式最后一项
E[(Y–E[Y|X])(E[Y|X]–g(X))|X]=(E[Y|X]–g(X))E[Y–E[Y|X]|X]=(E[Y|X]–g(X))(E[Y|X]–E[Y|X])=0
故
E[(Y–g(X))2|X]≥E[(Y–E[Y|X])2|X]
对上式两边求期望,得到如下命题
命题
E[(Y–g(X))2]≥E[(Y–E[Y|X])2]
式 (14) 也可以这样来理解:容易证明 E[(Y–c)2] 在 c=E[Y] 时达到最小值,因此在没有数据可用时,在均方误差最小的意义下,Y 的最优预测就是 E[Y]。现在假设得到了 X 的观察值 x,此时预测问题与没有数据时的预测问题完全一样,只是原来 Y 的期望改为在事件 {X=x} 之下的条件期望。因此 Y 的最优预测是 Y 在 X=x 之下的条件期望。