概率论 Cheat Sheet 17:独立随机变量
Contents [show]
1. 独立随机变量
对于随机变量 X 和 Y,如果对任意两个实数集 A 和 B,有
P{X∈A,Y∈B}=P{X∈A}P{Y∈B}
则称 X 和 Y 是独立的(Indenpendent)。也就是说,如果对所有的 A 和 B,事件 EA={X∈A} 和 EB={X∈B} 是独立的,那么随机变量 X 和 Y 独立。
有概率的三条公理可知,式 (1) 成立当且仅当对所有 a,b,有
P{X≤a,Y≤b}=P{X≤a}P{Y≤b}
由此,利用 X 和 Y 的联合分布函数 F 可知,如果
F(a,b)=FX(a)FY(b)对所有的a,b成立
则 X 和 Y 独立。当 X 和 Y 是离散型随机变量时,独立性条件 (1) 等价于
p(x,y)=pX(x)pY(y)对所有的x,y
上述结论成立的原因是,如果式 (1) 成立,令 A 和 B 分别表示单点集 A={x} 和 B={y},则可得式 (3)。反之,如果式 (3) 成立,那么对任意集合 A,B,有
P{X∈A,Y∈B}=∑y∈B∑x∈Ap(x,y)=∑y∈B∑x∈ApX(x)pY(y)=∑y∈BpY(y)∑x∈ApX(x)=P{Y∈B}P{X∈A}
于是式 (1) 成立。
在 X 和 Y 联合连续的情况下,独立性条件等价于
f(x,y)=fX(x)fY(y)对所有的x,y
因此,如果知道其中一个变量的取值并不影响另一个变量的分布,则这两个变量就相互独立。不独立的随机变量称为是相依的(Denpendent)。
X 和 Y 相互独立的一个充分必要条件是:联合密度函数(离散情况下为联合分布列)f(x,y) 可以分解成两部分,其中一部分仅与 x 有关,另一部分仅与 y 有关。
命题 连续性(离散型)随机变量 X 和 Y 相互独立,当且仅当其联合密度函数(联合分布列)可以写成
fX,Y(x,y)=h(x)g(y)−∞<x<∞,−∞<y<∞
X 和 Y 相互独立意味着 X 和 Y 的联合密度函数等于各自边缘密度函数的乘积,此时式 (5) 成立。另一方面,假定式 (5) 成立,则有
1=∫∞−∞∫∞−∞fX,Y(x,y)dxdy=∫∞−∞h(x)dx∫∞−∞g(y)dy=C1C2
其中 C1=∫∞−∞h(x)dx,C2=∫∞−∞g(y)dy。另外由前文 式 (8)、(9),有
fX(x)=∫∞−∞fX,Y(x,y)dy=h(x)∫∞−∞g(y)dy=C2h(x)
fY(y)=∫∞−∞fX,Y(x,y)dx=g(y)∫∞−∞h(x)dx=C1g(y)
又由 C1C2=1,可得
fX,Y(x,y)=fX(x)fY(y)
即 X 和 Y 相互独立。
2. 独立随机变量的和
当随机变量 X 和 Y 相互独立时,可以利用 X 和 Y 的分布来计算 X+Y 的分布。假设 X 和 Y 是相互独立的连续型随机变量,其密度函数分别为 fX 和 fY,那么 X+Y 的累积分布函数为
FX+Y(a)=P{X+Y≤a}=∬x+y≤afX(x)fY(y)dxdy=∫∞−∞∫a–y−∞fX(x)fY(y)dxdy=∫∞−∞∫a–y−∞fX(x)dxfY(y)dy=∫∞−∞FX(a–y)fY(y)dy
分布函数 FX+Y 称为分布函数 FX 和 FY 的卷积(Convolution),其中 FX 和 FY 分别为 X 和 Y 的分布函数。
对式 (1) 求导,可得 X+Y 的密度函数
fX+Y=dda∫∞−∞FX(a–y)fY(y)dy=∫∞−∞ddaFX(a–y)fY(y)dy=∫∞−∞fX(a–y)fY(y)dy
2.1. 独立同分布均匀随机变量
设 X 和 Y 为独立随机变量,都服从 (0,1) 上的均匀分布,则有
fX(a)=fY(a)={10<a<10其他
由式 (7),可得
fX+Y(a)=∫10fX(a–y)dy
当 0<a–y<1 时,fX(a–y) 取值 1,此时 a–1<y<a。当 a–1≤0 且 a≥0 时,有 0≤a≤1,此时
fX+Y(a)=∫a0dy=a
当 a–1<1 且 a>1 时,有 1≤a≤2,此时
fX+Y(a)=∫1a–1dy=2–a
于是得到
fX+Y(a)={a0≤a≤12–a1<a<20其他
%X + Y% 的密函函数形状是一个底边在 x 轴上的等腰三角形,故随机变量 X+Y 的分布又称为三角(Triangular)分布。
假设 X1,X2,⋯,Xn 是独立的 (0,1) 均匀随机变量,设
Fn(x)=P{X1+⋯+Xn≤x}
当 x≤1 时,可以用过数学归纳法证明
Fn(x)=xnn!0≤x≤1
2.2. Γ 随机变量
Γ 随机变量的密度函数为
f(y)=λe−λy(λy)t–1Γ(t)0<y<∞
该分布的一个重要性质是,对固定的 λ,它在卷积意义下是封闭的。
命题 如果 X 和 Y 为独立的 Γ 随机变量,参数分别为 (s,λ) 和 (t,λ),那么 X+Y 也为 Γ 随机变量,参数为 (s+t,λ)。
根据上述命题,通过数学归纳法可以得出,如果 Xi(i=1,⋯,n)为独立 Γ 随机变量,且参数分别为 ti,λ(i=1,⋯,n),那么 n∑i=1Xi 是参数为 (n∑i=1ti,λ) 的 Γ 随机变量。
如果 X1,X2,⋯,Xn 是 n 个独立同分布的参数为 λ 的指数随机变量,由于参数为 λ 的指数随机变量是参数为 (1,λ) 的 Γ 随机变量,由上述命题,可知 X1,X2,⋯,Xn 是参数为 (n,λ) 的 Γ 随机变量。
如果 Z1,Z2,⋯,Zn 是 n 个相互独立的标准正态随机变量,那么称 Y≡n∑i=1Z2i 是服从自由度为 n 的卡方(χ2)分布的随机变量。每个 Zi 都服从 Γ(12,12),由上述命题,可知自由度为 n 的卡方分布就是参数为 (n2,12) 的 Γ 分布。
2.3. 正态随机变量
命题 若 Xi(i=1,⋯,n)是 n 个相互独立的随机变量,且服从参数为 (μi,σi) 的正态分布,则 n∑i=1Xi 也服从正态分布,参数为 (n∑i=1μi,n∑i=1σ2i)。
如果 ln(Y) 为参数为 (μ,σ2) 的正态随机变量,那么称 Y 是参数为 (μ,σ) 的对数正态(Lognormal)随机变量。即如果 Y 能表示为 Y=eX,其中 X 为一正态随机变量,那么 Y 为对数随机变量。
2.4. 泊松随机变量和二项随机变量
独立泊松随机变量的和 设 X 和 Y 为独立泊松随机变量,参数分别为 λ1 和 λ2,则事件 {X+Y=n} 可以写成互不相容事件 {X=k,Y=n–k}(0 leqk≤n)的并,故
P{X+Y=n}=n∑k=0P{X=k,Y=n–k}=n∑k=0P{X=k}P{Y=n–k}=n∑k=0e−λ1λk1k!⋅e−λ2λn–k2(n–k)!=e−(λ1+λ2)n∑k=0λk1λn–k2)k!(n–k)!=e−(λ1+λ2)n!n∑k=0n!k!(n–k)!λk1λn–k2由二项式定理=e−(λ1+λ2)n!(λ1+λ2)n
即 X+Y 服从参数为 λ1+λ2 的泊松分布。
独立二项随机变量的和 设 X 和 Y 为独立二项随机变量,参数分别为 (n,p) 和 (m,p),则 X+Y 表示在 n+m 次独立重复试验中成功的次数(每次成功的概率为 p),故 X+Y 是服从参数为 (n+m,p) 的二项分布。令 q=i–p,有
P{X+Y=k}=n∑i=0P{X=i,Y=k–i}=n∑i=0P{X=i}P{Y=k–i}=n∑i=0(ni)piqn–i(mk–i)pk–iqm–k+i
当 j<0 时,(nj)=0,因此
P{X+Y=k}=pkqn+m–kn∑i=0(ni)(mk–i)=pkqn+m–k(n+mk)
可见 X+Y 是服从参数为 (n+m,p) 的二项分布。