概率论 Cheat Sheet 7:泊松随机变量
Contents [show]
1. 定义
如果一个取值为 0,1,2,⋯ 的随机变量对某一个 λ>0,其分布列如下
p(i)=P{X=i}=e−λλii!i=0,1,2,⋯
则称该随机变量为服从参数 λ 的泊松(Poisson)随机变量。由式 (1) 有
∞∑i=0p(i)=e−λ∞∑i=0λii!=e−λeλ=1
故式 (1) 定义了一个分布列。
当 n 足够大,p 充分小,而使得 np 保持适当的大小时,参数为 (n,p) 的二项随机变量可以近似的看成是参数为 λ=np 的泊松随机变量。对于参数为 (n,p) 的二项随机变量 X,记 λ=np,有
P{X=i}=n!(n–i)!i!pi(1–p)n–i=n!(n–i)!i!(λn)i(1–λn)n–i=n(n–1)⋯(n–i+1)niλii!(1–λ/n)n(1–λ/n)i
对于充分大的 n 和适当的 λ,有
(1–λn)n≈e−λ,n(n–1)⋯(n–i+1)ni≈1,(1–λn)i≈1
故有
P{X=i}≈e−λλii!
也就是说,独立重复地进行 n 次试验,每次成功的概率为 p,当 n 充分大,而 p 足够小,使得 np 保持适当的时候,成功的次数近似地服从参数为 λ=np 的泊松分布,这个 λ 值表示成功次数的期望值,通常凭经验确定。
2. 期望和方差
如前所述,当 n 很大、p 很小时,参数为 λ=np 泊松随机变量可以用于近似参数为 (n,p) 的二项随机变量。而这个二项随机变量的期望为 np=λ,方差为 np(1–p)=λ(1–p)≈λ,可以猜想泊松随机变量的期望和方差都等于其参数 λ。
计算 E[X] 和 E[X2] 如下
E[X]=∞∑i=0ie−λλii!=∞∑i=1e−λλi(i–1)!=∞∑i=1ie−λλii!=λe−λ∞∑i=1λi–1(i–1)!=λe−λ∞∑j=0λjj!令j=i–1=λ
E[X2]=∞∑i=0i2e−λλii!=∞∑i=1i2e−λλii!=∞∑i=1ie−λλi(i–1)!=λe−λ∞∑i=1iλi–1(i–1)!=λe−λ∞∑j=0(j+1)λjj!令j=i–1=λe−λ[∞∑j=0jλjj!+∞∑j=0λjj!]=λ(λ+1)
于是
Var(X)=E[X2]–(E[X])2=λ
可见泊松随机变量的期望和方差都等于其参数 λ。
3. 泊松范例
如前所述,当 n 很大且 p 很小时,参数为 λ=np 的泊松分布是对 n 次成功概率为 p 的独立重复试验中成功次数的较好近似。事实上,如果试验并不独立,而是存在弱相依的情况下,泊松分布仍是比较好的近似。
另一方面,要使事件发生的数量近似地服从泊松分布,并没有必要要求各个事件发生的概率相同,只要这些概率都较小即可。
泊松范例 考虑 n 个事件,第 i 个事件发生的概率为 pi,i=1,⋯,n。如果所有 pi 都很小,且试验或者独立,或者至多“弱相依”,那么事件发生的次数近似地服从参数为 n∑i=1pi 的泊松分布。
4. 应用
对于一本书中某一页印刷错误的数量,认为错印某一字符的概率 p 是一个很小的数,而改页的字数 n 很大,此时二项分布近似于泊松分布,于是可以认为一页上印刷错误的数量近似服从参数为 λ=np 的泊松分布。类似地,可以认为某一地区活到 100 岁的人数、某一天进入邮局的顾客数、某放射性材料在一段固定时间内放射出来的 α 粒子数等,都近似服从泊松分布。
另外,对于发生在某些时间点上的事件,如发生一次地震、爆发一次战争等,假设这样的事件发生在一系列(随机)时间点上,并设存在某个常数 λ>0,使得如下假设条件成立:
- 在任意长度为 h 的时间内,恰好发生一个事件的概率彼此相同,都等于 λh+o(h),其中 o(h) 表示任何满足 limh→0f(h)/h=0 的函数 f(h)。例如 f(h)=h2 是 o(h),而 f(h)=h 不是 o(h)。
- 在任意长度为 h 的时间内发生两个或更多个事件的概率非常小,等于 o(h)。
- 对于任意确定的自然数 n 与非负整数 j1,j2,⋯,jn,以及任意 n 个互不相交的时间区间,若以 Ei 表示“在第 i 个时间区内事件正好发生 ji 次”,则 E1,E2,⋯,En 相互独立。
如果事件的发生满足以上三个条件,则在任何固定长度为 t 的时间区间内,事件发生的次数是以 λt 为参数的泊松随机变量。此时,称事件是按强度为 λ 的泊松过程发生的。常数 λ 可解释为单位时间内事件发生的强度,是由经验确定的常数。
由此可以看出,对于发生在固定时间间隔内的地震的次数、每年爆发的战争的次数等现象,可以用泊松随机变量进行很好的近似。