[DL Note] 概率论:常用概率分布
Contents [show]
1. 伯努利分布
对于结果只有成功或失败的试验,令
X={1当试验结果为成功时0当试验结果为失败时
则 X 的分布列为
p(0)=P{X=0}=1–pp(1)=P{X=1}=p
其中 p(0≤p≤1)是每次试验成功的概率。
如果随机变量 X 的分布列由式 (1) 给出,其中 p∈(0,1),则称 X 为伯努利(Bernoulli)随机变量,有
E(X)=p
Var(X)=p(1–p)
2. 二项分布
假设进行 n 次独立重复试验,每次试验成功的概率为 p,失败的概率为 1–p,如果 X 表示 n 次试验中成功的次数,则 X 称为参数是 (n,p) 的二项(Binomial)随机变量。伯努利随机变量可以看成是参数为 (1,p) 的二项随机变量。
参数为 (n,p) 的二项随机变量的分布列为
p(i)=(ni)pi(1–p)n–ii=0,1,⋯,n
且有
E(X)=np
Var(X)=np(1−p)
3. 范畴分布
Multinoulli 分布或范畴(categorical)分布指的是具有 k 个不同状态的单个离散型随机变量的分布,其中 k 是有限值,前 k–1 个状态的概率由向量 p∈[0,1]k−1 参数化,每一个分量 pi 表示第 i 个状态的概率;最后一个状态的概率 pk=1–1Tp。
范畴分布常用来表示分类的分布,适合对状态可枚举的离散型随机变量进行建模。
4. 正态分布
正态(normal)分布或高斯(Gaussian)分布随机变量的概率密度函数为
f(x)=√12πσ2e−12σ2(x–μ)2−∞<x<∞
该密度函数是一条关于 μ 对称的钟形曲线,宽度受 σ 控制。
式 (3) 需要计算 σ 平方的倒数,比较麻烦,一种更高效的参数化方法是使用方差的倒数 β=1σ2 来控制分布的精度,其中 β∈(0,∞)。此时式 (3) 变为
f(x)=√β2πe−12β(x–μ)2−∞<x<∞
5. 指数分布
指数(exponential)分布随机变量的概率密度函数为
f(x)={λe−λx当x≥00当x<0
其中 λ>0。
指数随机变量的分布函数 F(a) 为
F(a)=P{X≤a}=∫a0λe−λxdx=−e−λx|a0=1–e−λaa≥0
均值和方差为
E[X]=1λ
Var(x)=1λ2
实践中,指数分布常用来描述某个时间发生的等待时间的分布,例如从现在开始地震发生的时间间隔、从现在开始接到下一个误拨电话的时间间隔等。
6. 狄拉克分布
狄拉克(Dirac)分布随机变量的概率密度函数为
f(x)=δ(x–μ)
其中 δ 函数的定义为在 0 以外的所有点的值都为 0,且积分为 1。δ 函数是根据积分性质定义的数学对象,是一个广义函数。式 (5) 中通过把 δ 函数右移 μ 个单位,得到一个在 x=μ 处无限窄且无限高的峰值。
狄拉克分布经常用于构成经验(empirical)分布
ˆpx=1mm∑i=1δ(x–x(i))
式 (6) 为 x(1) 到 x(m) 这 m 个点设置了 1/m 的概率质量。