概率论 Cheat Sheet 5:随机变量、期望和方差
1. 随机变量
在进行试验时,相比于直接的试验结果,我们有时更关心试验结果的某些函数。例如打麻将时掷两枚骰子,我们关心的是两枚骰子点数之和,而不关心每一枚骰子是什么点数。这些定义在样本空间上的实值函数,称为随机变量(Random Variable)。
因为随机变量的取值由试验结果决定,因此我们也会对随机变量的可能取值指定概率。
对于随机变量 $X$,定义其累计分布函数(Cumulative Distribution Function,CDF)$F(x)$ 为
\begin{equation}
F(x) = P(X \leq x) \qquad -\infty < x < \infty
\end{equation}
累计分布函数简称分布函数。对任一给定实数 $x$,$F(x)$ 为该随机变量小于等于 $x$ 的概率。
对于 $a \leq b$,由于事件 $\{X \leq a\}$ 包含于事件 $\{X \leq b\}$,可知前者的概率 $F(a)$ 要小于等于后者的概率 $F(b)$。也就是说,$F(x)$ 是 $x$ 的单调非降函数。
2. 离散型随机变量
若一个随机变量最多有可数个可能取值,则称这个随机变量为离散型的。对于一个离散型随机变量 $X$,定义 $X$ 的概率分布列(Probability Mass Function,PMF)$p(a)$ 为
\begin{equation}
p(a) = P\{X = a\}
\end{equation}
分布列 $p(a)$ 最多可在可数个 $a$ 上取正值。即如果 $X$ 的可能值为 $x_1, x_2, \cdots$,那么
\begin{align}
&p(x_i) \leq 0 \qquad i = 1, 2, \cdots \\
&p(x) = 0 \qquad 所有其他\;x
\end{align}
由于 $X$ 必定取值于 $\{x_1, x_2, \cdots\}$,所以有
\begin{equation}
\sum_{i=1}^{\infty} p(x_i) = 1
\end{equation}
离散型随机变量的分布函数 $F$ 可通过分布列 $p(a)$ 进行计算:
\begin{equation}
F(a) = \sum_{x \leq a} p(x)
\end{equation}
若 $x$ 是一个离散型随机变量,其可能取值为 $x_1, x_2, x_3, \cdots$,其中 $x_1 < x_2 < x_3 < \cdots$,则它的分布函数是一个阶梯函数,即在区间 $(x_{i-1}, x_i)$ 上取常数值,且在 $x_i$ 处有跳跃,跳跃值为 $p(x_i)$。
3. 期望
如果 $X$ 是一个离散型随机变量,其分布列为 $p(x)$,那么 $X$ 的期望(Expectation)或期望值(Expected Value)$E[X]$ 定义为
\begin{equation}
E[X] = \sum_{x: p(x) > 0} xp(x)
\end{equation}
$X$ 的期望值是 $X$ 所有可能取值的一个加权平均,每个值的权重是 $X$ 取该值的概率。
期望的定义也可以从频率的角度解释。将事件的概率看做事件发生频率的度量,如果进行无限多次独立重复试验,那么对于任一事件 $E$,$E$ 发生次数的比例将会是 $P(E)$。假设随机变量 $X$ 的可能取值为 $x_1, x_2, \cdots, x_n$,且相应的概率分别为 $p(x_1), p(x_2), \cdots, p(x_n)$,则期望 $E[X]$ 表示连续进行此试验所能得到的平均结果。
4. 随机变量的期望
假设已知一个离散型随机变量 $X$ 的分布列,要计算 $X$ 的函数的期望,例如 $g(X)$。一种求解方式是,注意到 $g(X)$ 本身也是一个离散型随机变量,也有自己的分布列,这个分布列可以通过 $X$ 的分布列计算得到。一旦得到了 $g(X)$ 的分布列,就可以通过期望的定义计算 $g(X)$ 的期望 $E[g(X)]$。
另一种求解方式是,注意到当 $X = x$ 时,$g(X) = g(x)$,可以认为 $E[g(X)]$ 是 $g(x)$ 的一个加权平均,其权重为 $X = x$ 的概率。
命题 如果 $X$ 是一个离散型随机变量,其可能取值为 $x_i$($i \geq 1$),相应的取值概率为 $p(x_i)$,那么,对任一实值函数 $g$,都有
\begin{equation}
E[g(X)] = \sum_i g(x_i)p(x_i)
\end{equation}
令 $g(X) = aX + b$,其中 $a$ 和 $b$ 是常数,则有
\begin{align}
E[aX + b] &= \sum_{x: p(x) > 0}(ax + b)p(x) \\
&= a \sum_{x: p(x) > 0}xp(x) + b\sum_{x: p(x) > 0}p(x)
\end{align}
于是有如下推论。
推论 若 $a$ 和 $b$ 是常数,则
\begin{equation}
E[aX + b] = aE[X] + b
\end{equation}
5. 方差
期望给出了随机变量取各个可能的值的加权平均,但并不能表明这些取值相对于均值的偏离程度。为了描述随机变量与均值间的偏离程度,一个直接的方法是计算 $X$ 与 $E[X]$ 的平均距离,如 $E[|X – \mu|]$,其中 $\mu = E[X]$。但在计算上处理绝对值并不方便,一个更容易处理的衡量偏差的方法是计算 $X$ 与其均值距离平方的期望。
定义 如果随机变量 $X$ 的期望为 $\mu$,那么 $X$ 的方差记为 $Var(X)$,其定义为
\begin{equation}
Var(X) = E[(X – \mu)^2]
\end{equation}
由方差的定义,有
\begin{align}
Var(X) &= E[(X – \mu)^2] = \sum_x (x – \mu)^2 p(x) \\
&= \sum_x x^2p(x) – 2\mu \sum_x xp(x) + \mu^2 \sum_x p(x) \\
&= \sum_x x^2p(x) – \mu^2
\end{align}
即
\begin{equation}
Var(X) = E[X^2] – (E[X])^2
\end{equation}
在实际应用中,上式是计算 $Var(X)$ 最简便的方法。
对于任意常数 $a$ 和 $b$,有
\begin{align}
Var(aX + b) &= E[\big(aX + b – (a \mu + b)\big)^2] \\
&= E[a^2 (X – \mu)^2] \\
&= a^2 E[(x – \mu^2)]
\end{align}
即
\begin{equation}
Var(aX + b) = a^2 Var(X)
\end{equation}
$Var(X)$ 的平方根称为 $X$ 的标准差(Standard Deviation),记为 $SD(X)$,即
\begin{equation}
SD(X) = \sqrt{Var(X)}
\end{equation}