概率论 Cheat Sheet 2：随机变量及其分布

Author: nex3z 2018-05-20

Math

Probability Theory

Contents

1. 随机变量
2. 离散型随机变量及其分布律
3. 随机变量的函数分布
4. 连续型随机变量及其概率密度
5. 随机变量的函数分布

1. 随机变量

　　定义　设随机试验的样本空间为 $S = \{e\}$，$X = X(e)$ 是定义在样本空间 $S$ 上的实值单值函数。称 $X = X(e)$ 为随机变量。

2. 离散型随机变量及其分布律

　　有些随机变量，它全部可能取到的值是有限个或为可列无限多个，这种随机变量称为离散型随机变量。

　　设离散随机变量 $X$ 所有可能取的值为 $x_k(k = 1,2,\cdots)$，$X$ 取各个可能值的概率，即事件 $\{X = x_k\}$ 的概率，为

\begin{equation}
P\{X = x_k\} = p_k, \; k = 1,2,\cdots \tag{2.1}
\end{equation}

　　称 $(2.1)$ 式为离散型随机变量 $X$ 的分布律。

由概率定义，$p_k$ 满足如下两个条件：

$p_k \geq 0, \; k = 1,2,\cdots \tag{2.2}$
$\sum_{k=1}\limits^{\infty}p_k = 1 \tag{2.3}$

2.1. (0-1) 分布

　　设随机变量 $X$ 只可能取 $0$ 与 $1$ 两个值，它的分布律是

\begin{equation}
P\{X = k\} = p^k(1-p)^{1-k}, \; k = 0, 1 \;\; (0 < p < 1)
\end{equation}

2.2. 伯努利试验、二项分布

　　设试验 $E$ 只有两个可能结果：$A$ 及 $\bar A$，则称 $E$ 为伯努利（Bernoulli）试验。设 $P(A) = p \; (0 < p < 1)$，此时 $P(\bar A) = 1 – p$。将 $E$ 独立重复地进行 $n$ 次，则称这一串重复的独立试验为 $n$ 重伯努利试验。

　　这里“重复”是指在每次试验中 $P(A) = p$ 保持不变；“独立”是指各次试验的结果互不影响，即若以 $C_i$ 为 $A$ 或 $\bar A$，$i=1,2,\cdots,n$，“独立”是指

\begin{equation}
P(C_1 C_2 \cdots C_n) = P(C_1)P(C_2) \cdots P(C_n) \tag{2.5}
\end{equation}

　　以 $X$ 表示 $n$ 重伯努利试验中事件 $A$ 发生的次数，$X$ 是一个随机变量，所有可能取得值为 $0,1,2,\cdots,n$。$n$ 次试验中 $A$ 发生 $k$ 次的概率为 $\binom{n}{k} p^k (1-p)^{n-k}$，记 $q = 1 – p$，即有

\begin{equation}
P\{X = k\} = \binom{n}{k}p^k q^{n-k}, \; k = 0,1,2,\cdots,n \tag{2.6}
\end{equation}

　　注意到 $\binom{n}{k} p^k q^{n-k}$ 刚好是闻香识 $(p+q)^n$ 的展开式中出现 $p_k$ 的那一项，我们称随机变量 $X$ 服从参数为 $n, p$ 的二项分布，并记为 $X \sim b(n, p)$。

　　特别地，当 $n = 1$ 是二项分布$(2.6)$化为

\begin{equation}
P\{X=k\} = p^k q^{1-k}, \; k=0,1
\end{equation}

这就是 (0-1) 分布。

2.3. 泊松分布

　　设随机变量 $X$ 所有可能取的值为 $0,1,2,\cdots$，而取各个值的概率为

\begin{equation}
P\{X=k\} = \frac{\lambda^k e^{-\lambda}}{k!}, \; k = 0,1,2,\cdots
\end{equation}

其中 $\lambda > 0$ 是常数，则称 $X$ 服从参数为 $\lambda$ 的泊松分布，记为 $X \sim \pi(\lambda)$。

　　易知，$P{X = k} \geq 0, \; k = 0,1,2,\cdots$，且有

\begin{equation}
\sum_{k=0}^{\infty}P\{X=k\} = \sum_{k=0}^{\infty} \frac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda}\sum_{k=0}^{\infty} \frac{\lambda^k}{k!} = e^{-\lambda}e^{\lambda} = 1
\end{equation}

即 $P\{X=k\}$ 满足条件 $(2.2)$，$(2.3)$。

　　泊松定理　设 $\lambda > 0$ 是一个常数，$n$ 是任意正整数，设 $np_n = \lambda$，则对于任一固定的非负整数 $k$，有

\begin{equation}
\lim_{n \rightarrow \infty} \binom{n}{k} p_n^k (1-p_n)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}
\end{equation}

　　定理的条件 $np_n = \lambda$ （常数）意味着当 $n$ 很大时 $p_n$ 必定很小，因此，上述定义表明当 $n$ 很大，$p$ 很小（$np = \lambda$）时有以下近似式

\begin{equation}
\binom{n}{k} p^k (1-p)^{n-k} \approx \frac{\lambda^k e^{-\lambda}}{k!} \tag{2.7}
\end{equation}

也就是说以 $n, p$ 为参数的二项分布的概率值可以由参数为 $\lambda = np$ 的泊松分布的概率值近似。上式也能用来做二项分布概率的近似计算。

3. 随机变量的函数分布

　　定义　设 $X$ 是一个随机变量，$x$ 是任意实数，函数

\begin{equation}
F(x) = P\{X < x\}, \; -\infty < x < \infty
\end{equation}

称为 $X$ 的 分布函数。

　　对于任意实数 $x_1, x_2 \; (x_1 < x_2)$ 有

\begin{equation}
P\{x_1 < X \leq x_2\} = P\{X \leq x_2\} – P\{X \leq x_1\} = F(x_2) – F(x_1) \tag{3.1}
\end{equation}

　　分布函数 $F(x)$ 具有以下的基本性质：

$F(x)$ 是一个不减函数。事实上，由 $(3.1)$ 式对于任意实数 $x_1, x_2 \; (x_1 < x_2)$，有
$$F(x_2) – F(x_1) = P\{x_1 < X \leq x_2\} \geq 0$$
$0 \leq F(x) \leq 1$ 且
$$F(-\infty) = \lim_{x \rightarrow -\infty} F(x) = 0, F(\infty) = \lim_{x \rightarrow \infty} F(x) = 1$$
$F(x+0) = F(x)$，即 $F(x)$ 是右连续的。

　　反之，可证具备性质 1，2，3 的函数 $F(x)$ 必是某个随机变量的分布函数。

4. 连续型随机变量及其概率密度

　　如果对于随机变量 $X$ 的分布函数 $F(X)$，存在可积函数 $f(x)$，使对于任意实数 $x$ 有

\begin{equation}
F(x) = \int_{-\infty}^{x} f(t)dt \tag{4.1}
\end{equation}

则称 $X$ 为连续型随机变量，$f(x)$ 称为 $X$ 的概率密度函数，简称概率密度。由定义知道，改变概率密度 $f(x)$ 在个别点的函数值不影响分布函数 $F(X)$ 的取值，因此并不在乎改变概率密度在个别点上的值。

　　由定义知道，概率密度 $f(x)$ 具有以下性质：

$f(x) \geq 0$
$\int_{-\infty}^{\infty} f(t)dt = 1$
对于任意实数 $x_1, x_2 \; (x_1 < x_2)$，
$$P\{x+1 < X \leq x_2 \} = F(x_2) – F(x_1) = \int_{x_1}^{x_2}f(x)dx$$
若 $f(x)$ 在点 $x$ 处连续，则有 $F'(x) = f(x)$

　　反之，若 $f(x)$ 具备性质 1，2，引入 $G(x) = \int_{-\infty}^{x} f(t)dt$，它是某一随机变量 $X$ 的分布函数， $f(x)$ 是 $X$ 的概率密度。

　　需要指出的是，对于连续型随机变量 $X$ 来说，它取任意指定实数值 $a$ 的概率均为 $0$，即 $P\{X = a\} = 0$。据此，在计算连续型随机变量落在某一区间的概率时，可以不必区分该区间是开区间或闭区间或半闭区间。

　　以后提到一个随机变量 $X$ 的“概率分布”时，指的是它的分布函数；或者，当 $X$ 时连续型随机变量时，指的是它的概率密度，当 $X$ 时离散型随机变量时，指的是它的分布律。

4.1. 均匀分布

　　若连续性随机变量 $X$ 具有概率密度

\begin{equation}
f(x) =\begin{cases}
\frac{1}{b-a}, & a < x < b, \\
0, & 其他
\end{cases} \tag{4.5}
\end{equation}

则称 $X$ 在区间 $(a, b)$ 上服从均匀分布，记为 $X \sim U(a, b)$。

4.2. 指数分布

　　若连续性随机变量 $X$ 的概率密度为

\begin{equation}
f(x) =\begin{cases}
\frac{1}{\theta}e^{-x/\theta}, & x > 0, \\
0, & 其他
\end{cases} \tag{4.7}
\end{equation}

其中 $\theta > 0$ 为常数，则称 $X$ 服从参数为 $\theta$ 的指数分布。

　　服从指数分布的随机变量 $X$ 具有无记忆性：对于任一 $s, t > 0$，有

\begin{equation}
P\{X > s+t | X > s\} = P\{X > t\} \tag{4.9}
\end{equation}

　　事实上

\begin{align}
P\{X>s+t|X>s\} &= \frac{P\{(X>s+t) \cap (X>s)\}}{P\{X>s\}} \\
&= \frac{P\{X >s+t\}}{P\{X>s\}} = \frac{1-F(s+t)}{1-F(s)} \\
&= \frac{e^{-(s-t)/\theta}}{e^{-s/\theta}} = e^{-t/\theta} \\
&= P\{X > t\}
\end{align}

4.3. 正态分布

　　若连续性随机变量 $X$ 的概率密度为

\begin{equation}
f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x – \mu)^2}{2\sigma^2}} \tag{4.10}
\end{equation}

其中 $\mu, \sigma(\sigma > 0)$ 为常数，则称 $X$ 服从参数为 $\mu, \sigma$ 的正态分布或高斯（Gauss）分布，记为 $X \sim N(\mu, \sigma^2)$。

　　它具有如下性质

曲线关于 $x = \mu$ 对称，这表明对于任意 $h > 0$ 有
$$P(\mu – h < X \leq \mu) = P(\mu < X \leq \mu + h)$$
当 $x = \mu$ 时取到最大值
$$f(\mu) = \frac{1}{\sqrt{2\pi}\sigma}$$

　　在 $x = \mu \pm \sigma$ 处曲线有拐点，曲线以 $Ox$ 轴为渐近线。

　　由 $(4.10)$ 式得 $X$ 的分布函数为

\begin{equation}
F(x) = \frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt \tag{4.12}
\end{equation}

　　特别，当 $\mu = 1, \sigma = 1$ 时称随机变量 $X$ 服从标准正态分布。其概率密度和分布函数分别用 $\varphi(x)$, $\Phi(x)$ 表示，即有

\begin{equation}
\varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} \tag{4.13}
\end{equation}

\begin{equation}
\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-t^2/2} dt \tag{4.14}
\end{equation}

　　易知

\begin{equation}
\Phi(-x) = 1 -\Phi(x) \tag{4.15}
\end{equation}

　　一般，若 $X \sim N(\mu, \sigma^2)$，只要通过一个线性变换就能将它化成标准正态分布。

　　引理　若 $X \sim N(\mu, \sigma^2)$，则 $Z = \frac{X – \mu}{\sigma} \sim N(0, 1)$。

　　设 $X \sim N(\mu, \sigma^2)$，由 $\Phi(x)$ 的值可以得到

\begin{equation}
P(\mu – \sigma < X < \mu + \sigma) = \Phi(1) – \Phi(-1) = 68.26\% \\
P(\mu – 2\sigma < X < \mu + 2\sigma) = \Phi(1) – \Phi(-1) = 95.44\% \\
P(\mu – 3\sigma < X < \mu + 3\sigma) = \Phi(1) – \Phi(-1) = 99.74\%
\end{equation}

可见，尽管正态变量的取值范围时 $(-\infty, \infty)$，但它的值落在 $\mu – 3\sigma, \mu + 3\sigma$ 内几乎是肯定的是，即所谓的 “$3\sigma$” 准则。

　　设 $X \sim N(0, 1)$，若 $z_{\alpha}$ 满足条件

\begin{equation}
P\{X > z_{\alpha}\} = \alpha, 0 < \alpha < 1 \tag{4.18}
\end{equation}

则称 $z_{\alpha}$ 为标准正态分布的 上 \alhpa 分位点，几个常用的 $z_{\alpha}$ 的值如下

alpha	0.001	0.005	0.01	0.025	0.05	0.10
z_alpha	3.090	2.576	2.326	1.960	1.645	1.282

5. 随机变量的函数分布

　　定理　设随机变量 $X$ 具有概率密度 $f_X(x), -\infty < x < \infty$，又设函数 $g(x)$ 处处可导且恒有 $g'(x) > 0$（或恒有 $g'(x) < 0$），则 $Y = g(X)$ 是连续型随机变量，其概率密度为

\begin{equation}
f_Y(y) =\begin{cases}
f_X[h(y)]|h'(y)|, & \; \alpha < y < \beta \\
0, & \;其他
\end{cases}
\end{equation}

其中 $\alpha = min(g(-\infty), g(\infty))$，$\beta = max(g(-\infty), g(\infty))$，$h(y)$ 是 $g(x)$ 的反函数。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31