概率论 Cheat Sheet 7:泊松随机变量

1. 定义

  如果一个取值为 $0, 1, 2, \cdots$ 的随机变量对某一个 $\lambda > 0$,其分布列如下

\begin{equation}
p(i) = P\{X = i\} = \mathrm{e}^{-\lambda} \frac{\lambda^i}{i!} \qquad i = 0, 1, 2, \cdots \tag{1}
\end{equation}

则称该随机变量为服从参数 $\lambda$ 的泊松(Poisson)随机变量。由式 $(1)$ 有

\begin{equation}
\sum_{i=0}^{\infty} p(i) = e^{-\lambda} \sum_{i=0}^{\infty} \frac{\lambda^i}{i!} = e^{-\lambda} e^{\lambda} = 1
\end{equation}

故式 $(1)$ 定义了一个分布列。

  当 $n$ 足够大,$p$ 充分小,而使得 $np$ 保持适当的大小时,参数为 $(n, p)$ 的二项随机变量可以近似的看成是参数为 $\lambda = np$ 的泊松随机变量。对于参数为 $(n, p)$ 的二项随机变量 $X$,记 $\lambda = np$,有

\begin{align}
P\{X = i\} &= \frac{n!}{(n – i)!i!} p^i (1 – p)^{n – i} \\
&= \frac{n!}{(n – i)!i!} (\frac{\lambda}{n})^i (1 – \frac{\lambda}{n})^{n – i} \\
&= \frac{n(n – 1)\cdots(n – i + 1)}{n^i} \frac{\lambda^i}{i!} \frac{(1 – \lambda / n)^n}{(1 – \lambda / n)^i}
\end{align}

对于充分大的 $n$ 和适当的 $\lambda$,有

\begin{equation}
(1 – \frac{\lambda}{n})^n \approx \mathrm{e}^{-\lambda}, \qquad \frac{n(n – 1)\cdots(n – i + 1)}{n^i} \approx 1, \qquad (1 – \frac{\lambda}{n})^i \approx 1
\end{equation}

故有

\begin{equation}
P\{X = i\} \approx \mathrm{e}^{-\lambda} \frac{\lambda^i}{i!}
\end{equation}

也就是说,独立重复地进行 $n$ 次试验,每次成功的概率为 $p$,当 $n$ 充分大,而 $p$ 足够小,使得 $np$ 保持适当的时候,成功的次数近似地服从参数为 $\lambda = np$ 的泊松分布,这个 $\lambda$ 值表示成功次数的期望值,通常凭经验确定。

2. 期望和方差

  如前所述,当 $n$ 很大、$p$ 很小时,参数为 $\lambda = np$ 泊松随机变量可以用于近似参数为 $(n, p)$ 的二项随机变量。而这个二项随机变量的期望为 $np = \lambda$,方差为 $np(1 – p) = \lambda(1 – p) \approx \lambda$,可以猜想泊松随机变量的期望和方差都等于其参数 $\lambda$。

  计算 $E[X]$ 和 $E[X^2]$ 如下

\begin{align}
E[X] &= \sum_{i=0}^{\infty} \frac{i \mathrm{e}^{-\lambda} \lambda^i}{i!}
= \sum_{i=1}^{\infty} \frac{\mathrm{e}^{-\lambda} \lambda^i}{(i – 1)!}
= \sum_{i=1}^{\infty} \frac{i \mathrm{e}^{-\lambda} \lambda^i}{i!} \\
&= \lambda \mathrm{e}^{-\lambda} \sum_{i=1}^{\infty} \frac{\lambda^{i – 1}}{(i – 1)!}
= \lambda \mathrm{e}^{-\lambda} \sum_{j=0}^{\infty} \frac{\lambda^{j}}{j!} \qquad 令 \; j = i – 1 \\
& = \lambda
\end{align}

\begin{align}
E[X^2] &= \sum_{i=0}^{\infty} \frac{i^2 \mathrm{e}^{-\lambda} \lambda^i}{i!}
= \sum_{i=1}^{\infty} \frac{i^2 \mathrm{e}^{-\lambda} \lambda^i}{i!}
= \sum_{i=1}^{\infty} \frac{i \mathrm{e}^{-\lambda} \lambda^i}{(i – 1)!} \\
&= \lambda \mathrm{e}^{-\lambda} \sum_{i=1}^{\infty} \frac{i \lambda^{i – 1}}{(i – 1)!}
= \lambda \mathrm{e}^{-\lambda} \sum_{j=0}^{\infty} \frac{(j + 1) \lambda^j}{j!} \qquad 令 \; j = i – 1 \\
&= \lambda \mathrm{e}^{-\lambda} [\sum_{j=0}^{\infty} \frac{j \lambda^j}{j!} + \sum_{j=0}^{\infty} \frac{\lambda^j}{j!}] \\
&= \lambda(\lambda +1)
\end{align}

于是

\begin{equation}
Var(X) = E[X^2] – (E[X])^2 = \lambda
\end{equation}

  可见泊松随机变量的期望和方差都等于其参数 $\lambda$。

3. 泊松范例

  如前所述,当 $n$ 很大且 $p$ 很小时,参数为 $\lambda = np$ 的泊松分布是对 $n$ 次成功概率为 $p$ 的独立重复试验中成功次数的较好近似。事实上,如果试验并不独立,而是存在弱相依的情况下,泊松分布仍是比较好的近似。

  另一方面,要使事件发生的数量近似地服从泊松分布,并没有必要要求各个事件发生的概率相同,只要这些概率都较小即可。

  泊松范例 考虑 $n$ 个事件,第 $i$ 个事件发生的概率为 $p_i$,$i = 1, \cdots, n$。如果所有 $p_i$ 都很小,且试验或者独立,或者至多“弱相依”,那么事件发生的次数近似地服从参数为 $\sum\limits_{i=1}^n p_i$ 的泊松分布。

4. 应用

  对于一本书中某一页印刷错误的数量,认为错印某一字符的概率 $p$ 是一个很小的数,而改页的字数 $n$ 很大,此时二项分布近似于泊松分布,于是可以认为一页上印刷错误的数量近似服从参数为 $\lambda = np$ 的泊松分布。类似地,可以认为某一地区活到 100 岁的人数、某一天进入邮局的顾客数、某放射性材料在一段固定时间内放射出来的 $\alpha$ 粒子数等,都近似服从泊松分布。

  另外,对于发生在某些时间点上的事件,如发生一次地震、爆发一次战争等,假设这样的事件发生在一系列(随机)时间点上,并设存在某个常数 $\lambda > 0$,使得如下假设条件成立:

  1. 在任意长度为 $h$ 的时间内,恰好发生一个事件的概率彼此相同,都等于 $\lambda h + o(h)$,其中 $o(h)$ 表示任何满足 $\lim_{h \rightarrow 0} f(h) / h = 0$ 的函数 $f(h)$。例如 $f(h) = h^2$ 是 $o(h)$,而 $f(h) = h$ 不是 $o(h)$。
  2. 在任意长度为 $h$ 的时间内发生两个或更多个事件的概率非常小,等于 $o(h)$。
  3. 对于任意确定的自然数 $n$ 与非负整数 $j_1, j_2, \cdots, j_n$,以及任意 $n$ 个互不相交的时间区间,若以 $E_i$ 表示“在第 $i$ 个时间区内事件正好发生 $j_i$ 次”,则 $E_1, E_2, \cdots, E_n$ 相互独立。

如果事件的发生满足以上三个条件,则在任何固定长度为 $t$ 的时间区间内,事件发生的次数是以 $\lambda t$ 为参数的泊松随机变量。此时,称事件是按强度为 $\lambda$ 的泊松过程发生的。常数 $\lambda$ 可解释为单位时间内事件发生的强度,是由经验确定的常数。

  由此可以看出,对于发生在固定时间间隔内的地震的次数、每年爆发的战争的次数等现象,可以用泊松随机变量进行很好的近似。