概率论 Cheat Sheet 2:概率论公理
1. 样本空间和事件
对于一个试验,假设所有可能的结果是一致的,则所有可能结果构成的集合称为该试验的样本空间(Sample Space),记为 $S$。
样本空间的任意子集 $E$ 称为事件(Event),事件是由试验的某些可能结果组成的一个集合。如果试验的结果包含在 $E$ 里面,就称事件 $E$ 发生了。
对于用一个样本空间 $S$ 的任意两个事件 $E$ 和 $F$,定义一个新的事件 $E \bigcup F$,由或在 $E$ 中,或在 $F$ 中,或既在 $E$ 中又在 $F$ 中的结果组成。如果事件 $E$ 或 $F$ 至少有一个发生,那么 $E \bigcup F$ 就发生。$E \bigcup F$ 称为事件 $E$ 和事件 $F$ 的并(Union)。
类似地,任意两个事件 $E$ 和 $F$,定义 $EF$(有时也记作 $E \bigcap F$),由 $E$ 和 $F$ 的公共元素组成,称为 $E$ 和 $F$ 的交(Intersection)。事件 $EF$ 发生当且仅当 $E$ 和 $F$ 同时发生。
不可能发生的事件称为不可能事件,记为 $\varnothing$。如果 $EF = \varnothing$,则称 $E$ 和 $F$ 是互不相容的(Mutually Exclusive)。
类似地,可以定义两个以上事件地并和交。设 $E_1, E_2, \cdots$ 是一系列事件,这些事件地并记为 $\bigcup\limits_{n=1}^{\infty}E_n$,表示至少包含在某一个 $E_n$ 中的所有结果所构成的事件。这些事件地交记为 $\bigcap\limits_{n=1}^{\infty}E_n$,表示包含在所有 $E_n$ 中的所有结果构成的事件。
对于任意事件 $E$,定义 $E$ 的补,表示包含在样本空间中但不包含在 $E$ 中的所有结果构成的事件,记作 $E^c$。$E^c$ 发生当且仅当 $E$ 不发生。样本空间 $S$ 的补 $S^c = \varnothing$。
对于任意两个事件 $E$ 和 $F$,如果 $E$ 中的所有结果都在 $F$ 中,那么称 $E$ 包含于 $F$ 或者 $E$ 是 $F$ 的子集,记为 $E \subset F$(或者 $F \supset E$,也可以称 $F$ 是 $E$ 的一个超集)。如果 $E \subset F$,那么 $E$ 发生就表示 $F$ 发生。如果 $E \subset F$ 且 $F \subset E$,那么 $E$ 和 $F$ 是相等的,记为 $E = F$。
事件的并、交和补遵循类似代数里的一些运算法则:
- 交换律:$E \bigcup F = F \bigcup E$,$EF = FE$
- 结合律:$(E \bigcup F) \bigcup G = E \bigcup (F \bigcup G)$,$(EF)G = E(FG)$
- 分配率:$(E \bigcup F)G = EG \bigcup FG$,$EF \bigcup G = (E \bigcup G)(F \bigcup G)$
德摩根律(De Morgan Law)揭示了并、交、补三个基本运算之间的重要关系:
\begin{equation}
\bigg( \bigcup\limits_{i=1}^{n} E_i\bigg)^c = \bigcap\limits_{i=1}^{n} E_i^c \qquad \bigg( \bigcap\limits_{i=1}^{n} E_i\bigg)^c = \bigcup\limits_{i=1}^{n} E_i^c
\end{equation}
2. 概率论公理
定义事件发生概率的一种方法是使用事件发生的相对概率:假设有一个样本空间为 $S$ 的试验,它在相同条件下可重复执行,对于样本空间 $S$ 中的事件 $E$,记 $n(E)$ 为 $n$ 次重复试验中事件 $E$ 发生的次数,那么该事件发生的概率 $P(E)$ 定义为:
\begin{equation}
P(E) = \lim_{n \rightarrow \infty} \frac{n(E)}{n}
\end{equation}
即定义概率 $P(E)$ 为 $E$ 发生的次数占试验总次数的比例的极限,也就是 $E$ 发生频率的极限。虽然这个定义很直观,但却有一个严重的问题:我们无法确定 $n(E) / n$ 会收敛到一个固定的常数。该定义的成立,基于 $n(E) / n$ 会趋于某常数极限值的假设。
特别地,我们假定对于样本空间中的任一事件 $E$,都存在一个值 $P(E)$(即事件 $E$ 的概率),并假定这些概率值符合一些列公理。假设某个试验的样本空间为 $S$,对其中的某一事件 $E$,定义一个数 $P(E)$,它满足如下三个公理:
概率的三个公理
- 公理 1
\begin{equation}
0 \leq P(E) \leq 1
\end{equation}
- 公理 2
\begin{equation}
P(S) = 1
\end{equation}
- 公理 3 对任一列互不相容的事件 $E_1, E_2, \cdots$(即如果 $i \neq j$,则 $E_i E_j = \varnothing$),有
\begin{equation}
P(\bigcup_{i = 1}^{\infty} E_i) = \sum_{i = 1}^{\infty}P(E_i)
\end{equation}
公理 1 说明任何事件 $E$ 的概率在 $0$ 到 $1$ 之间。公理 2 说明 $S$ 作为必然发生的事件,其概率定义为 $1$。公理 3 说明对任一列互不相容事件,至少有一事件发生的概率等于各事件发生的概率之和。
设 $E_1, E_2, \cdots$ 为一特殊的事件序列,其中 $E_1 = S_1$,$E_i = \varnothing$($i > 1$),因为各个事件不相容,且 $S = \bigcap\limits_{i = 1}^{\infty}E_i$,由公理 3 有
\begin{equation}
P(S) = \sum_{i = 1}^{\infty}P(E_i) = P(S) + \sum_{i = 2}^{\infty}P(\varnothing)
\end{equation}
可得
\begin{equation}
P(\varnothing) = 0
\end{equation}
即空事件发生的概率为 $0$。
对于有限个互不相容的事件 $E_1, E_2, \cdots, E_n$,在定理 3 中令所有 $E_i$($i > n$)为空事件,可得
\begin{equation}
P(\bigcup_{i = 1}^{n} E_i) = \sum_{i = 1}^{n}P(E_i)
\end{equation}
设 $P(E)$ 是定义在样本空间中的事件上的集函数,若它满足上述三个公理,则 $P(E)$ 就是事件 $E$ 的概率。这一定义是现代概率论的数学基础。进一步地,利用这些公理可以证明,随着试验的不断重复,事件 $E$ 发生的频率以概率 $1$ 趋近 $P(E)$(强大数定律)。
3. 几个简单命题
命题 1
\begin{equation}
P(E^c) = 1 – P(E)
\end{equation}
$E$ 和 $E^c$ 总是不相容的,且 $E \bigcup E^c = S$,由公理 2 和公理 3,可得
\begin{equation}
1 = P(S) = P(E \bigcup E^c) = P(E) + P(E^c)
\end{equation}
故有命题 1 成立。
命题 2 如果 $E \subset F$,那么 $P(E) \leq P(F)$。
对于 $E \subset F$,可将 $F$ 表示为 $F = E \bigcup E^c F$,由公理 3,有 $P(F) = P(E) + P(E^c F)$,而 $P(E^c F) \leq 0$,故有命题 2 成立。
命题 3
\begin{equation}
P(E \bigcup F) = P(E) + P(F) – P(EF)
\end{equation}
$E \bigcup F$ 可以表示为两个不相容事件 $E$ 和 $E^c F$ 的并,有
\begin{equation}
P(E \bigcup F) = P(E \bigcup E^c F)= P(E) + P(E^c F)
\end{equation}
$F$ 可以表示为两个不相容事件 $EF$ 和 $E^cF$ 的并,有
\begin{equation}
P(F) = P(EF \bigcup E^c F) = P(EF) + P(E^c F)
\end{equation}
等价地,有
\begin{equation}
P(E^cF) = P(F) – P(EF)
\end{equation}
将上式带入前面 $P(E \bigcup F)$ 的计算,得到
\begin{equation}
P(E \bigcup F) = P(E) + P(F) – P(EF)
\end{equation}
故命题 3 成立。
进一步地,可以计算三个事件 $E, F, G$ 之中至少发生一个的概率为
\begin{align}
P(E \bigcup F \bigcup G) &= P\big((E \bigcup F) \bigcup G\big) = P(E \bigcup F) + P(G) – P\big((E \bigcup F)G\big) \\
&= P(E) + P(F) – P(EF) + P(G) – P(EG \bigcup FG) \\
&= P(E) + P(F) – P(EF) + P(G) – P(EG) – P(FG) + P(EGFG) \\
&= P(E) + P(F) + P(G) – P(EF) – P(EG) – P(FG) + P(EFG)
\end{align}
命题 4 容斥恒等式(Inclusion-Exclusion Indentity)
\begin{align}
P(E_1 \bigcup E_2 \bigcup \cdots \bigcup E_n) = &\sum_{i = 1}^n P(E_i) – \sum_{i_1 < i_2} P(E_{i_1} E_{i_2}) + \cdots + \\
&(-1)^{r + 1} \sum_{i_1 < i_2 < \cdots < i_r}P(E_{i_1} E_{i_2} \cdots E_{i_r}) + \cdots + \\
&(-1)^{n + 1} P(E_1 E_2) \cdots E_n)
\end{align}
其中,$\sum_{i_1 < i_2 < \cdots < i_r}P(E_{i_1} E_{i_2}) \cdots E_{i_r}))$ 表示对一切下标集合 $\{i_1, i_2, \cdots, i_r\}$ 所对应的值求和,和项一共包含 $\binom{n}{r}$ 项。
命题 4 说明,$n$ 个事件并的概率,等于这些事件独自发生的概率之和,减去两个事件同时发生的概率之和,加上三个事件同时发生的概率之和······
4. 等可能结果的样本空间
很多试验中的一个自然的假设是,样本空间中的所有结果发生的可能性都是一样的。考虑这样一个试验,其样本空间 $S$ 是有限集,设 $S = \{1, 2, \cdots, N\}$,那么就经常会自然地假设
\begin{equation}
P(\{1\}) = P(\{2\}) = \cdots = P(\{N\})
\end{equation}
由公理 2 和公理 3,有
\begin{equation}
P(\{i\}) = \frac{1}{N} \qquad i = 1, 2, \cdots, N
\end{equation}
再由公理 3,可得对于任何事件 $E$,有
\begin{equation}
P(E) = \frac{E 中的结果数\;\;\;\;\;\;}{S 中的结果数\;\;\;\;\;\;}
\end{equation}
也就是说,如果假定一次试验的所有结果都是等可能发生的,那么任何事件 $E$ 发生的概率等于 $E$ 中所含有的结果数占样本空间中的所有结果数的比例。
当一个试验是从 $n$ 个物品的集合中随机选取 $k$ 个物品时,可以认为选取物品时有顺序的,也可以认为是没有顺序的,由二者得到的事件发生的概率是相同的。例如一个碗里面有 6 个白球和 5 个黑球,随机从中取出 3 个球,计算恰好取出 1 个白球和 2 个黑球的概率。如果认为取球是有顺序的,则样本空间包含 $\binom{11}{3}3! = 990$ 种结果,所求事件有 $\binom{6}{1}\binom{5}{2}3! = 360$,所求概率为 $360/990 = 4/11$。另一方面,如果认为取球是没有顺序的,则样本空间包含 $\binom{11}{3} = 330$ 种结果,所求事件有 $\binom{6}{1}\binom{5}{2} = 60$ 种结果,所求概率为 $60/165 = 4/11$。
5. 概率:连续集函数
事件序列 $\{E_n, n\geq 1\}$ 如果满足
\begin{equation}
E_1 \subset E_2 \subset \cdots \subset E_n \subset E_{n+1} \subset \cdots
\end{equation}
则称该序列为递增序列,此时定义一个新的事件 $\lim\limits_{n \rightarrow \infty} E_n$ 如下:
\begin{equation}
\lim_{n \rightarrow \infty} E_n = \bigcup_{i = 1}^\infty E_i
\end{equation}
反之,事件序列 $\{E_n, n\geq 1\}$ 如果满足
\begin{equation}
E_1 \supset E_2 \supset \cdots \supset E_n \supset E_{n+1} \supset \cdots
\end{equation}
则称该序列为递减序列,此时定义事件 $\lim\limits_{n \rightarrow \infty} E_n$ 如下:
\begin{equation}
\lim_{n \rightarrow \infty} E_n = \bigcap_{i = 1}^\infty E_i
\end{equation}
6. 概率:确信程度的度量
一个事件的概率,是指在重复进行某个试验的情况下,对该事件发生频率的一种度量。此外,概率也可以作为人们对自己的说法的确信程度的一种度量,概率作为个体确信程度的度量经常被称为主观(Subjective)概率。无论是把概率解释为确信程度的度量,还是事件发生的频率,其数学属性都没变。