概率论 Cheat Sheet 5：随机变量、期望和方差

Author: nex3z 2019-01-12

Contents

1. 随机变量
2. 离散型随机变量
3. 期望
4. 随机变量的期望
5. 方差

1. 随机变量

　　在进行试验时，相比于直接的试验结果，我们有时更关心试验结果的某些函数。例如打麻将时掷两枚骰子，我们关心的是两枚骰子点数之和，而不关心每一枚骰子是什么点数。这些定义在样本空间上的实值函数，称为随机变量（Random Variable）。

　　因为随机变量的取值由试验结果决定，因此我们也会对随机变量的可能取值指定概率。

　　对于随机变量 $X$，定义其累计分布函数（Cumulative Distribution Function，CDF）$F(x)$ 为

\begin{equation}
F(x) = P(X \leq x) \qquad -\infty < x < \infty
\end{equation}

累计分布函数简称分布函数。对任一给定实数 $x$，$F(x)$ 为该随机变量小于等于 $x$ 的概率。

　　对于 $a \leq b$，由于事件 $\{X \leq a\}$ 包含于事件 $\{X \leq b\}$，可知前者的概率 $F(a)$ 要小于等于后者的概率 $F(b)$。也就是说，$F(x)$ 是 $x$ 的单调非降函数。

2. 离散型随机变量

　　若一个随机变量最多有可数个可能取值，则称这个随机变量为离散型的。对于一个离散型随机变量 $X$，定义 $X$ 的概率分布列（Probability Mass Function，PMF）$p(a)$ 为

\begin{equation}
p(a) = P\{X = a\}
\end{equation}

分布列 $p(a)$ 最多可在可数个 $a$ 上取正值。即如果 $X$ 的可能值为 $x_1, x_2, \cdots$，那么

\begin{align}
&p(x_i) \leq 0 \qquad i = 1, 2, \cdots \\
&p(x) = 0 \qquad 所有其他\;x
\end{align}

由于 $X$ 必定取值于 $\{x_1, x_2, \cdots\}$，所以有

\begin{equation}
\sum_{i=1}^{\infty} p(x_i) = 1
\end{equation}

　　离散型随机变量的分布函数 $F$ 可通过分布列 $p(a)$ 进行计算：

\begin{equation}
F(a) = \sum_{x \leq a} p(x)
\end{equation}

　　若 $x$ 是一个离散型随机变量，其可能取值为 $x_1, x_2, x_3, \cdots$，其中 $x_1 < x_2 < x_3 < \cdots$，则它的分布函数是一个阶梯函数，即在区间 $(x_{i-1}, x_i)$ 上取常数值，且在 $x_i$ 处有跳跃，跳跃值为 $p(x_i)$。

3. 期望

　　如果 $X$ 是一个离散型随机变量，其分布列为 $p(x)$，那么 $X$ 的期望（Expectation）或期望值（Expected Value）$E[X]$ 定义为

\begin{equation}
E[X] = \sum_{x: p(x) > 0} xp(x)
\end{equation}

$X$ 的期望值是 $X$ 所有可能取值的一个加权平均，每个值的权重是 $X$ 取该值的概率。

　　期望的定义也可以从频率的角度解释。将事件的概率看做事件发生频率的度量，如果进行无限多次独立重复试验，那么对于任一事件 $E$，$E$ 发生次数的比例将会是 $P(E)$。假设随机变量 $X$ 的可能取值为 $x_1, x_2, \cdots, x_n$，且相应的概率分别为 $p(x_1), p(x_2), \cdots, p(x_n)$，则期望 $E[X]$ 表示连续进行此试验所能得到的平均结果。

4. 随机变量的期望

　　假设已知一个离散型随机变量 $X$ 的分布列，要计算 $X$ 的函数的期望，例如 $g(X)$。一种求解方式是，注意到 $g(X)$ 本身也是一个离散型随机变量，也有自己的分布列，这个分布列可以通过 $X$ 的分布列计算得到。一旦得到了 $g(X)$ 的分布列，就可以通过期望的定义计算 $g(X)$ 的期望 $E[g(X)]$。

　　另一种求解方式是，注意到当 $X = x$ 时，$g(X) = g(x)$，可以认为 $E[g(X)]$ 是 $g(x)$ 的一个加权平均，其权重为 $X = x$ 的概率。

　　命题　如果 $X$ 是一个离散型随机变量，其可能取值为 $x_i$（$i \geq 1$），相应的取值概率为 $p(x_i)$，那么，对任一实值函数 $g$，都有

\begin{equation}
E[g(X)] = \sum_i g(x_i)p(x_i)
\end{equation}

　　令 $g(X) = aX + b$，其中 $a$ 和 $b$ 是常数，则有

\begin{align}
E[aX + b] &= \sum_{x: p(x) > 0}(ax + b)p(x) \\
&= a \sum_{x: p(x) > 0}xp(x) + b\sum_{x: p(x) > 0}p(x)
\end{align}

于是有如下推论。

　　推论　若 $a$ 和 $b$ 是常数，则

\begin{equation}
E[aX + b] = aE[X] + b
\end{equation}

5. 方差

　　期望给出了随机变量取各个可能的值的加权平均，但并不能表明这些取值相对于均值的偏离程度。为了描述随机变量与均值间的偏离程度，一个直接的方法是计算 $X$ 与 $E[X]$ 的平均距离，如 $E[|X – \mu|]$，其中 $\mu = E[X]$。但在计算上处理绝对值并不方便，一个更容易处理的衡量偏差的方法是计算 $X$ 与其均值距离平方的期望。

　　定义　如果随机变量 $X$ 的期望为 $\mu$，那么 $X$ 的方差记为 $Var(X)$，其定义为

\begin{equation}
Var(X) = E[(X – \mu)^2]
\end{equation}

　　由方差的定义，有

\begin{align}
Var(X) &= E[(X – \mu)^2] = \sum_x (x – \mu)^2 p(x) \\
&= \sum_x x^2p(x) – 2\mu \sum_x xp(x) + \mu^2 \sum_x p(x) \\
&= \sum_x x^2p(x) – \mu^2
\end{align}

即

\begin{equation}
Var(X) = E[X^2] – (E[X])^2
\end{equation}

在实际应用中，上式是计算 $Var(X)$ 最简便的方法。

　　对于任意常数 $a$ 和 $b$，有

\begin{align}
Var(aX + b) &= E[\big(aX + b – (a \mu + b)\big)^2] \\
&= E[a^2 (X – \mu)^2] \\
&= a^2 E[(x – \mu^2)]
\end{align}

即

\begin{equation}
Var(aX + b) = a^2 Var(X)
\end{equation}

　　$Var(X)$ 的平方根称为 $X$ 的标准差（Standard Deviation），记为 $SD(X)$，即

\begin{equation}
SD(X) = \sqrt{Var(X)}
\end{equation}

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31