概率论 Cheat Sheet 2:概率论公理
Contents [show]
1. 样本空间和事件
对于一个试验,假设所有可能的结果是一致的,则所有可能结果构成的集合称为该试验的样本空间(Sample Space),记为 S。
样本空间的任意子集 E 称为事件(Event),事件是由试验的某些可能结果组成的一个集合。如果试验的结果包含在 E 里面,就称事件 E 发生了。
对于用一个样本空间 S 的任意两个事件 E 和 F,定义一个新的事件 E⋃F,由或在 E 中,或在 F 中,或既在 E 中又在 F 中的结果组成。如果事件 E 或 F 至少有一个发生,那么 E⋃F 就发生。E⋃F 称为事件 E 和事件 F 的并(Union)。
类似地,任意两个事件 E 和 F,定义 EF(有时也记作 E⋂F),由 E 和 F 的公共元素组成,称为 E 和 F 的交(Intersection)。事件 EF 发生当且仅当 E 和 F 同时发生。
不可能发生的事件称为不可能事件,记为 ∅。如果 EF=∅,则称 E 和 F 是互不相容的(Mutually Exclusive)。
类似地,可以定义两个以上事件地并和交。设 E1,E2,⋯ 是一系列事件,这些事件地并记为 ∞⋃n=1En,表示至少包含在某一个 En 中的所有结果所构成的事件。这些事件地交记为 ∞⋂n=1En,表示包含在所有 En 中的所有结果构成的事件。
对于任意事件 E,定义 E 的补,表示包含在样本空间中但不包含在 E 中的所有结果构成的事件,记作 Ec。Ec 发生当且仅当 E 不发生。样本空间 S 的补 Sc=∅。
对于任意两个事件 E 和 F,如果 E 中的所有结果都在 F 中,那么称 E 包含于 F 或者 E 是 F 的子集,记为 E⊂F(或者 F⊃E,也可以称 F 是 E 的一个超集)。如果 E⊂F,那么 E 发生就表示 F 发生。如果 E⊂F 且 F⊂E,那么 E 和 F 是相等的,记为 E=F。
事件的并、交和补遵循类似代数里的一些运算法则:
- 交换律:E⋃F=F⋃E,EF=FE
- 结合律:(E⋃F)⋃G=E⋃(F⋃G),(EF)G=E(FG)
- 分配率:(E⋃F)G=EG⋃FG,EF⋃G=(E⋃G)(F⋃G)
德摩根律(De Morgan Law)揭示了并、交、补三个基本运算之间的重要关系:
(n⋃i=1Ei)c=n⋂i=1Eci(n⋂i=1Ei)c=n⋃i=1Eci
2. 概率论公理
定义事件发生概率的一种方法是使用事件发生的相对概率:假设有一个样本空间为 S 的试验,它在相同条件下可重复执行,对于样本空间 S 中的事件 E,记 n(E) 为 n 次重复试验中事件 E 发生的次数,那么该事件发生的概率 P(E) 定义为:
P(E)=lim
即定义概率 P(E) 为 E 发生的次数占试验总次数的比例的极限,也就是 E 发生频率的极限。虽然这个定义很直观,但却有一个严重的问题:我们无法确定 n(E) / n 会收敛到一个固定的常数。该定义的成立,基于 n(E) / n 会趋于某常数极限值的假设。
特别地,我们假定对于样本空间中的任一事件 E,都存在一个值 P(E)(即事件 E 的概率),并假定这些概率值符合一些列公理。假设某个试验的样本空间为 S,对其中的某一事件 E,定义一个数 P(E),它满足如下三个公理:
概率的三个公理
- 公理 1
\begin{equation} 0 \leq P(E) \leq 1 \end{equation}
- 公理 2
\begin{equation} P(S) = 1 \end{equation}
- 公理 3 对任一列互不相容的事件 E_1, E_2, \cdots(即如果 i \neq j,则 E_i E_j = \varnothing),有
\begin{equation} P(\bigcup_{i = 1}^{\infty} E_i) = \sum_{i = 1}^{\infty}P(E_i) \end{equation}
公理 1 说明任何事件 E 的概率在 0 到 1 之间。公理 2 说明 S 作为必然发生的事件,其概率定义为 1。公理 3 说明对任一列互不相容事件,至少有一事件发生的概率等于各事件发生的概率之和。
设 E_1, E_2, \cdots 为一特殊的事件序列,其中 E_1 = S_1,E_i = \varnothing(i > 1),因为各个事件不相容,且 S = \bigcap\limits_{i = 1}^{\infty}E_i,由公理 3 有
\begin{equation} P(S) = \sum_{i = 1}^{\infty}P(E_i) = P(S) + \sum_{i = 2}^{\infty}P(\varnothing) \end{equation}
可得
\begin{equation} P(\varnothing) = 0 \end{equation}
即空事件发生的概率为 0。
对于有限个互不相容的事件 E_1, E_2, \cdots, E_n,在定理 3 中令所有 E_i(i > n)为空事件,可得
\begin{equation} P(\bigcup_{i = 1}^{n} E_i) = \sum_{i = 1}^{n}P(E_i) \end{equation}
设 P(E) 是定义在样本空间中的事件上的集函数,若它满足上述三个公理,则 P(E) 就是事件 E 的概率。这一定义是现代概率论的数学基础。进一步地,利用这些公理可以证明,随着试验的不断重复,事件 E 发生的频率以概率 1 趋近 P(E)(强大数定律)。
3. 几个简单命题
命题 1
\begin{equation} P(E^c) = 1 – P(E) \end{equation}
E 和 E^c 总是不相容的,且 E \bigcup E^c = S,由公理 2 和公理 3,可得
\begin{equation} 1 = P(S) = P(E \bigcup E^c) = P(E) + P(E^c) \end{equation}
故有命题 1 成立。
命题 2 如果 E \subset F,那么 P(E) \leq P(F)。
对于 E \subset F,可将 F 表示为 F = E \bigcup E^c F,由公理 3,有 P(F) = P(E) + P(E^c F),而 P(E^c F) \leq 0,故有命题 2 成立。
命题 3
\begin{equation} P(E \bigcup F) = P(E) + P(F) – P(EF) \end{equation}
E \bigcup F 可以表示为两个不相容事件 E 和 E^c F 的并,有
\begin{equation} P(E \bigcup F) = P(E \bigcup E^c F)= P(E) + P(E^c F) \end{equation}
F 可以表示为两个不相容事件 EF 和 E^cF 的并,有
\begin{equation} P(F) = P(EF \bigcup E^c F) = P(EF) + P(E^c F) \end{equation}
等价地,有
\begin{equation} P(E^cF) = P(F) – P(EF) \end{equation}
将上式带入前面 P(E \bigcup F) 的计算,得到
\begin{equation} P(E \bigcup F) = P(E) + P(F) – P(EF) \end{equation}
故命题 3 成立。
进一步地,可以计算三个事件 E, F, G 之中至少发生一个的概率为
\begin{align} P(E \bigcup F \bigcup G) &= P\big((E \bigcup F) \bigcup G\big) = P(E \bigcup F) + P(G) – P\big((E \bigcup F)G\big) \\ &= P(E) + P(F) – P(EF) + P(G) – P(EG \bigcup FG) \\ &= P(E) + P(F) – P(EF) + P(G) – P(EG) – P(FG) + P(EGFG) \\ &= P(E) + P(F) + P(G) – P(EF) – P(EG) – P(FG) + P(EFG) \end{align}
命题 4 容斥恒等式(Inclusion-Exclusion Indentity)
\begin{align} P(E_1 \bigcup E_2 \bigcup \cdots \bigcup E_n) = &\sum_{i = 1}^n P(E_i) – \sum_{i_1 < i_2} P(E_{i_1} E_{i_2}) + \cdots + \\ &(-1)^{r + 1} \sum_{i_1 < i_2 < \cdots < i_r}P(E_{i_1} E_{i_2} \cdots E_{i_r}) + \cdots + \\ &(-1)^{n + 1} P(E_1 E_2) \cdots E_n) \end{align}
其中,\sum_{i_1 < i_2 < \cdots < i_r}P(E_{i_1} E_{i_2}) \cdots E_{i_r})) 表示对一切下标集合 \{i_1, i_2, \cdots, i_r\} 所对应的值求和,和项一共包含 \binom{n}{r} 项。
命题 4 说明,n 个事件并的概率,等于这些事件独自发生的概率之和,减去两个事件同时发生的概率之和,加上三个事件同时发生的概率之和······
4. 等可能结果的样本空间
很多试验中的一个自然的假设是,样本空间中的所有结果发生的可能性都是一样的。考虑这样一个试验,其样本空间 S 是有限集,设 S = \{1, 2, \cdots, N\},那么就经常会自然地假设
\begin{equation} P(\{1\}) = P(\{2\}) = \cdots = P(\{N\}) \end{equation}
由公理 2 和公理 3,有
\begin{equation} P(\{i\}) = \frac{1}{N} \qquad i = 1, 2, \cdots, N \end{equation}
再由公理 3,可得对于任何事件 E,有
\begin{equation} P(E) = \frac{E 中的结果数\;\;\;\;\;\;}{S 中的结果数\;\;\;\;\;\;} \end{equation}
也就是说,如果假定一次试验的所有结果都是等可能发生的,那么任何事件 E 发生的概率等于 E 中所含有的结果数占样本空间中的所有结果数的比例。
当一个试验是从 n 个物品的集合中随机选取 k 个物品时,可以认为选取物品时有顺序的,也可以认为是没有顺序的,由二者得到的事件发生的概率是相同的。例如一个碗里面有 6 个白球和 5 个黑球,随机从中取出 3 个球,计算恰好取出 1 个白球和 2 个黑球的概率。如果认为取球是有顺序的,则样本空间包含 \binom{11}{3}3! = 990 种结果,所求事件有 \binom{6}{1}\binom{5}{2}3! = 360,所求概率为 360/990 = 4/11。另一方面,如果认为取球是没有顺序的,则样本空间包含 \binom{11}{3} = 330 种结果,所求事件有 \binom{6}{1}\binom{5}{2} = 60 种结果,所求概率为 60/165 = 4/11。
5. 概率:连续集函数
事件序列 \{E_n, n\geq 1\} 如果满足
\begin{equation} E_1 \subset E_2 \subset \cdots \subset E_n \subset E_{n+1} \subset \cdots \end{equation}
则称该序列为递增序列,此时定义一个新的事件 \lim\limits_{n \rightarrow \infty} E_n 如下:
\begin{equation} \lim_{n \rightarrow \infty} E_n = \bigcup_{i = 1}^\infty E_i \end{equation}
反之,事件序列 \{E_n, n\geq 1\} 如果满足
\begin{equation} E_1 \supset E_2 \supset \cdots \supset E_n \supset E_{n+1} \supset \cdots \end{equation}
则称该序列为递减序列,此时定义事件 \lim\limits_{n \rightarrow \infty} E_n 如下:
\begin{equation} \lim_{n \rightarrow \infty} E_n = \bigcap_{i = 1}^\infty E_i \end{equation}
6. 概率:确信程度的度量
一个事件的概率,是指在重复进行某个试验的情况下,对该事件发生频率的一种度量。此外,概率也可以作为人们对自己的说法的确信程度的一种度量,概率作为个体确信程度的度量经常被称为主观(Subjective)概率。无论是把概率解释为确信程度的度量,还是事件发生的频率,其数学属性都没变。