Processing math: 58%

概率论 Cheat Sheet 24:条件期望

1. 定义

  当 XY 的联合分布为离散分布时,对于 P{Y=y}>0y 值,给定 Y=y 之下,X 的条件分布列定义为

pX|Y(x|y)=P{X=x|Y=y}=p(x,y)pY(y)

对于所有满足 pY(y)>0yX 在给定 Y=y 之下的条件期望为

E[X|Y=y]=xxP{X=x|Y=y}=xxpX|Y(x|y)

  类似地,当 XY 具有连续型联合分布 f(x,y) 时,对于给定的 Y=y,当 fY(y)>0 时,X 的条件密度函数定义为

fX|Y(x|y)=f(x,y)fY(y)

对于所有满足 fY(y)>0yX 在给定 Y=y 之下的条件期望为

E[X|Y=y]=xfX|Y(x|y)dx

  正如条件概率满足概率的所有性质,条件期望也满足通常期望的性质,如

E[g(X)|Y=y]={xg(x)pX|Y(x|y)g(x)fX|Y(x|y)dx

E[ni=1Xi|Y=y]=ni=1E[Xi|Y=y]

给定 Y=y 条件下的期望可以看成是减小了样本空间中的普通期望,这个减小的样本空间由满足 {Y=y} 条件下的那些样本点组成。

2. 通过取条件计算期望

  记 E[X|Y] 表示随机变量 Y 的函数,它在 Y=y 处的值为 E[X|Y=y],注意 E[X|Y] 本身是一个随机变量。

  命题

E[X]=E[E[X|Y]]

如果 Y 是离散型随机变量,则式 (5) 变成

E[X]=yE[X|Y=y]P{Y=y}

如果 Y 是连续型随机变量,密度函数为 fY(y),则式 (5) 变成

E[X]=E[X|Y=y]fY(y)dy

  当 XY 为离散型时,式 (6) 等号右边可以写为

yE[X|Y=y]P{Y=y}=yxxP{X=x|Y=y}P{Y=y}=yxxP{X=x,Y=y}P{Y=y}P{Y=y}=yxxP{X=x,Y=y}=xxyP{X=x,Y=y}=xP{X=x}=E[X]

于是式 (6) 成立。

  式 (6) 中的 E[X] 可以看成是条件期望 E[X|Y=y] 的加权平均,权重是事件 {Y=y} 的概率。这个结果对计算随机变量的期望十分重要,可以让我们首先计算某随机变量在给定条件之下的条件期望(这通常比较容易计算),然后再对条件期望求平均。

3. 通过取条件计算概率

  取条件期望的方法不仅可以用于计算一个随机变量的期望,还可以用于计算概率。设 E 为一随机事件,令 XE 的示性变量,即

X={1E0E

X 的定义可得

E[X]=P(E)

E[X|Y=y]=P(E|Y=y)Y

由式 (6)(7),可得

P(E)={yP(E|Y=y)P(Y=y)YP(E|Y=y)fY(y)dyY

如果 Y 式离散型随机变量,且取值为 y1,,yn,定义事件 Fi={Y=yi},则式 (8) 变成

P(E)=ni=1P(E|Fi)P(Fi)

其中 F1,,Fn 为互不相容事件,且这些事件的并集构成一个样本空间。

4. 条件方差

  类似 Y=y 条件下 X 的条件期望的定义,定义 Y=y 条件下 X 的条件方差为

\begin{equation} \mathrm{Var}(X|Y) \equiv E[(X – E[X|Y]^2)|Y] \tag{9} \end{equation}

\mathrm{Var}(X|Y)X 和它的条件期望之差的平方的(条件)期望值。 \mathrm{Var}(X|Y) 与通常的方差的定义完全一致,只不过将求期望换成了求在 Y 已知的条件下的条件期望。

  条件方差 \mathrm{Var}(X|Y) 和无条件方差 \mathrm{Var}(X) 之间具有某种很有用的关系,利用这些关系可以很方便地计算一个随机变量的方差。首先,与普通方差的公式 \mathrm{Var}(X) = E[X^2] – (E[X])^2 一样,条件方差也有

\begin{equation} \mathrm{Var}(X|Y) = E[X^2|Y] – (E[X|Y])^2 \tag{10} \end{equation}

由此得到

\begin{equation} E[\mathrm{Var}(X|Y)] = E[E[X^2|Y]] – E[(E[X|Y])^2] = E[X^2] – E[E[X|Y]^2] \tag{11} \end{equation}

同时

\begin{equation} \mathrm{Var}(E[X|Y]) = E[E[X|Y]^2] – (E[E[X|Y]])^2 = E[E[X|Y]^2] – (E[X])^2 \tag{12} \end{equation}

将式 (11) 和式 (12) 相加,得

  命题 条件方差公式

\begin{equation} \mathrm{Var}(X) = E[\mathrm{Var}(X|Y)] + \mathrm{Var}(E[X|Y]) \tag{13} \end{equation}

5. 条件期望及预测

  在实际问题中,有时会遇到这样的情况:某人观测到随机变量 X 的值,然后基于 X 的值对第二个随机变量 Y 进行预测。令 g(X) 表示预测值,即当观测到 X 的值 x 之后,g(x) 就是 Y 的预测值。我们希望选择合适的 g 使得 g(X) 最接近 Y,选择 g 的一个准则是极小化 E[(Y – g(X))^2]。可以证明,在这个准则之下,Y 的最优预测值为 g(X) = E[Y|X]。计算 E[(Y – g(X))^2 | X] 如下

\begin{align} E[(Y – g(X))^2 | X] &= E\big[ (Y – E[Y|X] + E[Y|X] – g(X))^2 | X \big] \\ &= E\big[(Y – E[Y|X])^2 | X\big] + E\big[(E[Y|X] – g(X))^2 | X\big] \\ & + 2E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big] \end{align}

对于给定的 XE[Y|X] – g(X)X 的函数,可以看成是一个常数,故上式最后一项

\begin{align} E\big[(Y – E[Y|X])(E[Y|X] – g(X))|X\big] &= (E[Y|X] – g(X))E\big[Y – E[Y|X] | X\big] \\ &= (E[Y|X] – g(X))(E[Y|X] – E[Y|X]) = 0 \end{align}

\begin{equation} E[(Y – g(X))^2 | X] \geq E\big[(Y – E[Y|X])^2 | X\big] \end{equation}

对上式两边求期望,得到如下命题

  命题

\begin{equation} E[(Y – g(X))^2] \geq E[(Y – E[Y|X])^2] \tag{14} \end{equation}

  式 (14) 也可以这样来理解:容易证明 E[(Y – c)^2]c = E[Y] 时达到最小值,因此在没有数据可用时,在均方误差最小的意义下,Y 的最优预测就是 E[Y]。现在假设得到了 X 的观察值 x,此时预测问题与没有数据时的预测问题完全一样,只是原来 Y 的期望改为在事件 \{X = x\} 之下的条件期望。因此 Y 的最优预测是 YX = x 之下的条件期望。