[DL Note] 概率论:常用概率分布
1. 伯努利分布
对于结果只有成功或失败的试验,令
\begin{equation}
X= \begin{cases}
1 & 当试验结果为成功时 \\
0 & 当试验结果为失败时
\end{cases}
\end{equation}
则 $X$ 的分布列为
\begin{align}
&p(0) = P\{X = 0\} = 1 – p \\
&p(1) = P\{X = 1\} = p \tag{1}
\end{align}
其中 $p$($0 \leq p \leq 1$)是每次试验成功的概率。
如果随机变量 $X$ 的分布列由式 $(1)$ 给出,其中 $p \in (0, 1)$,则称 $X$ 为伯努利(Bernoulli)随机变量,有
\begin{equation}
\mathrm{E}(X) = p
\end{equation}
\begin{equation}
\mathrm{Var}(X) = p(1 – p)
\end{equation}
2. 二项分布
假设进行 $n$ 次独立重复试验,每次试验成功的概率为 $p$,失败的概率为 $1 – p$,如果 $X$ 表示 $n$ 次试验中成功的次数,则 $X$ 称为参数是 $(n, p)$ 的二项(Binomial)随机变量。伯努利随机变量可以看成是参数为 $(1, p)$ 的二项随机变量。
参数为 $(n, p)$ 的二项随机变量的分布列为
\begin{equation}
p(i) = \binom{n}{i} p^i (1 – p)^{n – i} \qquad i = 0, 1, \cdots, n \tag{2}
\end{equation}
且有
\begin{equation}
\mathrm{E}(X) = np
\end{equation}
\begin{equation}
\mathrm{Var}(X) = np(1-p)
\end{equation}
3. 范畴分布
Multinoulli 分布或范畴(categorical)分布指的是具有 $k$ 个不同状态的单个离散型随机变量的分布,其中 $k$ 是有限值,前 $k – 1$ 个状态的概率由向量 $\boldsymbol p \in [0, 1]^{k-1}$ 参数化,每一个分量 $p_i$ 表示第 $i$ 个状态的概率;最后一个状态的概率 $p_k = 1 – \boldsymbol 1^\mathsf{T} \boldsymbol p$。
范畴分布常用来表示分类的分布,适合对状态可枚举的离散型随机变量进行建模。
4. 正态分布
正态(normal)分布或高斯(Gaussian)分布随机变量的概率密度函数为
\begin{equation}
f(x) = \sqrt{\frac{1}{2\pi\sigma^2}} \mathrm{e}^{-\frac{1}{2\sigma^2}(x – \mu)^2} \qquad -\infty < x < \infty \tag{3}
\end{equation}
该密度函数是一条关于 $\mu$ 对称的钟形曲线,宽度受 $\sigma$ 控制。
式 $(3)$ 需要计算 $\sigma$ 平方的倒数,比较麻烦,一种更高效的参数化方法是使用方差的倒数 $\beta = \frac{1}{\sigma^2}$ 来控制分布的精度,其中 $\beta \in (0, \infty)$。此时式 $(3)$ 变为
\begin{equation}
f(x) = \sqrt{\frac{\beta}{2\pi}} \mathrm{e}^{-\frac{1}{2}\beta(x – \mu)^2} \qquad -\infty < x < \infty \tag{3}
\end{equation}
5. 指数分布
指数(exponential)分布随机变量的概率密度函数为
\begin{equation}
f(x) =\begin{cases} \lambda e^{-\lambda x} & 当 \; x \geq 0 \\
0 & 当 \; x < 0\end{cases} \tag{4}
\end{equation}
其中 $\lambda > 0$。
指数随机变量的分布函数 $F(a)$ 为
\begin{equation}
F(a) = P\{X \leq a\} = \int_0^a \lambda e^{-\lambda x} \mathrm{d}x = -e^{-\lambda x} \big\vert_0^a = 1 – e^{-\lambda a} \qquad a \geq 0 \tag{2}
\end{equation}
均值和方差为
\begin{equation}
\mathrm{E}[X] = \frac{1}{\lambda}
\end{equation}
\begin{equation}
\mathrm{Var}(x) = \frac{1}{\lambda^2}
\end{equation}
实践中,指数分布常用来描述某个时间发生的等待时间的分布,例如从现在开始地震发生的时间间隔、从现在开始接到下一个误拨电话的时间间隔等。
6. 狄拉克分布
狄拉克(Dirac)分布随机变量的概率密度函数为
\begin{equation}
f(x) = \delta(x – \mu) \tag{5}
\end{equation}
其中 $\delta$ 函数的定义为在 $0$ 以外的所有点的值都为 $0$,且积分为 $1$。$\delta$ 函数是根据积分性质定义的数学对象,是一个广义函数。式 $(5)$ 中通过把 $\delta$ 函数右移 $\mu$ 个单位,得到一个在 $x = \mu$ 处无限窄且无限高的峰值。
狄拉克分布经常用于构成经验(empirical)分布
\begin{equation}
\hat p{\boldsymbol x} = \frac{1}{m} \sum_{i=1}^m \delta (\boldsymbol x – \boldsymbol x^{(i)}) \tag{6}
\end{equation}
式 $(6)$ 为 $\boldsymbol x^{(1)}$ 到 $\boldsymbol x^{(m)}$ 这 $m$ 个点设置了 $1/m$ 的概率质量。