[DL Note] 概率论：常用概率分布

Author: nex3z 2019-08-07

Math

Probability

Contents

1. 伯努利分布
2. 二项分布
3. 范畴分布
4. 正态分布
5. 指数分布
6. 狄拉克分布

1. 伯努利分布

　　对于结果只有成功或失败的试验，令

\begin{equation}
X= \begin{cases}
1 & 当试验结果为成功时 \\
0 & 当试验结果为失败时
\end{cases}
\end{equation}

则 $X$ 的分布列为

\begin{align}
&p(0) = P\{X = 0\} = 1 – p \\
&p(1) = P\{X = 1\} = p \tag{1}
\end{align}

其中 $p$（$0 \leq p \leq 1$）是每次试验成功的概率。

　　如果随机变量 $X$ 的分布列由式 $(1)$ 给出，其中 $p \in (0, 1)$，则称 $X$ 为伯努利（Bernoulli）随机变量，有

\begin{equation}
\mathrm{E}(X) = p
\end{equation}

\begin{equation}
\mathrm{Var}(X) = p(1 – p)
\end{equation}

2. 二项分布

　　假设进行 $n$ 次独立重复试验，每次试验成功的概率为 $p$，失败的概率为 $1 – p$，如果 $X$ 表示 $n$ 次试验中成功的次数，则 $X$ 称为参数是 $(n, p)$ 的二项（Binomial）随机变量。伯努利随机变量可以看成是参数为 $(1, p)$ 的二项随机变量。

　　参数为 $(n, p)$ 的二项随机变量的分布列为

\begin{equation}
p(i) = \binom{n}{i} p^i (1 – p)^{n – i} \qquad i = 0, 1, \cdots, n \tag{2}
\end{equation}

且有

\begin{equation}
\mathrm{E}(X) = np
\end{equation}

\begin{equation}
\mathrm{Var}(X) = np(1-p)
\end{equation}

3. 范畴分布

　　Multinoulli 分布或范畴（categorical）分布指的是具有 $k$ 个不同状态的单个离散型随机变量的分布，其中 $k$ 是有限值，前 $k – 1$ 个状态的概率由向量 $\boldsymbol p \in [0, 1]^{k-1}$ 参数化，每一个分量 $p_i$ 表示第 $i$ 个状态的概率；最后一个状态的概率 $p_k = 1 – \boldsymbol 1^\mathsf{T} \boldsymbol p$。

　　范畴分布常用来表示分类的分布，适合对状态可枚举的离散型随机变量进行建模。

4. 正态分布

　　正态（normal）分布或高斯（Gaussian）分布随机变量的概率密度函数为

\begin{equation}
f(x) = \sqrt{\frac{1}{2\pi\sigma^2}} \mathrm{e}^{-\frac{1}{2\sigma^2}(x – \mu)^2} \qquad -\infty < x < \infty \tag{3}
\end{equation}

该密度函数是一条关于 $\mu$ 对称的钟形曲线，宽度受 $\sigma$ 控制。

　　式 $(3)$ 需要计算 $\sigma$ 平方的倒数，比较麻烦，一种更高效的参数化方法是使用方差的倒数 $\beta = \frac{1}{\sigma^2}$ 来控制分布的精度，其中 $\beta \in (0, \infty)$。此时式 $(3)$ 变为

\begin{equation}
f(x) = \sqrt{\frac{\beta}{2\pi}} \mathrm{e}^{-\frac{1}{2}\beta(x – \mu)^2} \qquad -\infty < x < \infty \tag{3}
\end{equation}

5. 指数分布

　　指数（exponential）分布随机变量的概率密度函数为

\begin{equation}
f(x) =\begin{cases} \lambda e^{-\lambda x} & 当 \; x \geq 0 \\
0 & 当 \; x < 0\end{cases} \tag{4}
\end{equation}

其中 $\lambda > 0$。

　　指数随机变量的分布函数 $F(a)$ 为

\begin{equation}
F(a) = P\{X \leq a\} = \int_0^a \lambda e^{-\lambda x} \mathrm{d}x = -e^{-\lambda x} \big\vert_0^a = 1 – e^{-\lambda a} \qquad a \geq 0 \tag{2}
\end{equation}

均值和方差为

\begin{equation}
\mathrm{E}[X] = \frac{1}{\lambda}
\end{equation}

\begin{equation}
\mathrm{Var}(x) = \frac{1}{\lambda^2}
\end{equation}

　　实践中，指数分布常用来描述某个时间发生的等待时间的分布，例如从现在开始地震发生的时间间隔、从现在开始接到下一个误拨电话的时间间隔等。

6. 狄拉克分布

　　狄拉克（Dirac）分布随机变量的概率密度函数为

\begin{equation}
f(x) = \delta(x – \mu) \tag{5}
\end{equation}

其中 $\delta$ 函数的定义为在 $0$ 以外的所有点的值都为 $0$，且积分为 $1$。$\delta$ 函数是根据积分性质定义的数学对象，是一个广义函数。式 $(5)$ 中通过把 $\delta$ 函数右移 $\mu$ 个单位，得到一个在 $x = \mu$ 处无限窄且无限高的峰值。

　　狄拉克分布经常用于构成经验（empirical）分布

\begin{equation}
\hat p{\boldsymbol x} = \frac{1}{m} \sum_{i=1}^m \delta (\boldsymbol x – \boldsymbol x^{(i)}) \tag{6}
\end{equation}

式 $(6)$ 为 $\boldsymbol x^{(1)}$ 到 $\boldsymbol x^{(m)}$ 这 $m$ 个点设置了 $1/m$ 的概率质量。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31