概率论 Cheat Sheet 5:随机变量、期望和方差
Contents [show]
1. 随机变量
在进行试验时,相比于直接的试验结果,我们有时更关心试验结果的某些函数。例如打麻将时掷两枚骰子,我们关心的是两枚骰子点数之和,而不关心每一枚骰子是什么点数。这些定义在样本空间上的实值函数,称为随机变量(Random Variable)。
因为随机变量的取值由试验结果决定,因此我们也会对随机变量的可能取值指定概率。
对于随机变量 X,定义其累计分布函数(Cumulative Distribution Function,CDF)F(x) 为
F(x)=P(X≤x)−∞<x<∞
累计分布函数简称分布函数。对任一给定实数 x,F(x) 为该随机变量小于等于 x 的概率。
对于 a≤b,由于事件 {X≤a} 包含于事件 {X≤b},可知前者的概率 F(a) 要小于等于后者的概率 F(b)。也就是说,F(x) 是 x 的单调非降函数。
2. 离散型随机变量
若一个随机变量最多有可数个可能取值,则称这个随机变量为离散型的。对于一个离散型随机变量 X,定义 X 的概率分布列(Probability Mass Function,PMF)p(a) 为
p(a)=P{X=a}
分布列 p(a) 最多可在可数个 a 上取正值。即如果 X 的可能值为 x1,x2,⋯,那么
p(xi)≤0i=1,2,⋯p(x)=0所有其他x
由于 X 必定取值于 {x1,x2,⋯},所以有
∞∑i=1p(xi)=1
离散型随机变量的分布函数 F 可通过分布列 p(a) 进行计算:
F(a)=∑x≤ap(x)
若 x 是一个离散型随机变量,其可能取值为 x1,x2,x3,⋯,其中 x1<x2<x3<⋯,则它的分布函数是一个阶梯函数,即在区间 (xi−1,xi) 上取常数值,且在 xi 处有跳跃,跳跃值为 p(xi)。
3. 期望
如果 X 是一个离散型随机变量,其分布列为 p(x),那么 X 的期望(Expectation)或期望值(Expected Value)E[X] 定义为
E[X]=∑x:p(x)>0xp(x)
X 的期望值是 X 所有可能取值的一个加权平均,每个值的权重是 X 取该值的概率。
期望的定义也可以从频率的角度解释。将事件的概率看做事件发生频率的度量,如果进行无限多次独立重复试验,那么对于任一事件 E,E 发生次数的比例将会是 P(E)。假设随机变量 X 的可能取值为 x1,x2,⋯,xn,且相应的概率分别为 p(x1),p(x2),⋯,p(xn),则期望 E[X] 表示连续进行此试验所能得到的平均结果。
4. 随机变量的期望
假设已知一个离散型随机变量 X 的分布列,要计算 X 的函数的期望,例如 g(X)。一种求解方式是,注意到 g(X) 本身也是一个离散型随机变量,也有自己的分布列,这个分布列可以通过 X 的分布列计算得到。一旦得到了 g(X) 的分布列,就可以通过期望的定义计算 g(X) 的期望 E[g(X)]。
另一种求解方式是,注意到当 X=x 时,g(X)=g(x),可以认为 E[g(X)] 是 g(x) 的一个加权平均,其权重为 X=x 的概率。
命题 如果 X 是一个离散型随机变量,其可能取值为 xi(i≥1),相应的取值概率为 p(xi),那么,对任一实值函数 g,都有
E[g(X)]=∑ig(xi)p(xi)
令 g(X)=aX+b,其中 a 和 b 是常数,则有
E[aX+b]=∑x:p(x)>0(ax+b)p(x)=a∑x:p(x)>0xp(x)+b∑x:p(x)>0p(x)
于是有如下推论。
推论 若 a 和 b 是常数,则
E[aX+b]=aE[X]+b
5. 方差
期望给出了随机变量取各个可能的值的加权平均,但并不能表明这些取值相对于均值的偏离程度。为了描述随机变量与均值间的偏离程度,一个直接的方法是计算 X 与 E[X] 的平均距离,如 E[|X–μ|],其中 μ=E[X]。但在计算上处理绝对值并不方便,一个更容易处理的衡量偏差的方法是计算 X 与其均值距离平方的期望。
定义 如果随机变量 X 的期望为 μ,那么 X 的方差记为 Var(X),其定义为
Var(X)=E[(X–μ)2]
由方差的定义,有
Var(X)=E[(X–μ)2]=∑x(x–μ)2p(x)=∑xx2p(x)–2μ∑xxp(x)+μ2∑xp(x)=∑xx2p(x)–μ2
即
Var(X)=E[X2]–(E[X])2
在实际应用中,上式是计算 Var(X) 最简便的方法。
对于任意常数 a 和 b,有
Var(aX+b)=E[(aX+b–(aμ+b))2]=E[a2(X–μ)2]=a2E[(x–μ2)]
即
Var(aX+b)=a2Var(X)
Var(X) 的平方根称为 X 的标准差(Standard Deviation),记为 SD(X),即
SD(X)=√Var(X)