概率论 Cheat Sheet 2:随机变量及其分布

1. 随机变量

  定义 设随机试验的样本空间为 $S = \{e\}$,$X = X(e)$ 是定义在样本空间 $S$ 上的实值单值函数。称 $X = X(e)$ 为随机变量。

2. 离散型随机变量及其分布律

  有些随机变量,它全部可能取到的值是有限个或为可列无限多个,这种随机变量称为离散型随机变量

  设离散随机变量 $X$ 所有可能取的值为 $x_k(k = 1,2,\cdots)$,$X$ 取各个可能值的概率,即事件 $\{X = x_k\}$ 的概率,为

\begin{equation}
P\{X = x_k\} = p_k, \; k = 1,2,\cdots \tag{2.1}
\end{equation}

  称 $(2.1)$ 式为离散型随机变量 $X$ 的分布律

由概率定义,$p_k$ 满足如下两个条件:

  1. $p_k \geq 0, \; k = 1,2,\cdots \tag{2.2}$
  2. $\sum_{k=1}\limits^{\infty}p_k = 1 \tag{2.3}$

2.1. (0-1) 分布

  设随机变量 $X$ 只可能取 $0$ 与 $1$ 两个值,它的分布律是

\begin{equation}
P\{X = k\} = p^k(1-p)^{1-k}, \; k = 0, 1 \;\; (0 < p < 1)
\end{equation}

2.2. 伯努利试验、二项分布

  设试验 $E$ 只有两个可能结果:$A$ 及 $\bar A$,则称 $E$ 为伯努利(Bernoulli)试验。设 $P(A) = p \; (0 < p < 1)$,此时 $P(\bar A) = 1 – p$。将 $E$ 独立重复地进行 $n$ 次,则称这一串重复的独立试验为 $n$ 重伯努利试验

  这里“重复”是指在每次试验中 $P(A) = p$ 保持不变;“独立”是指各次试验的结果互不影响,即若以 $C_i$ 为 $A$ 或 $\bar A$,$i=1,2,\cdots,n$,“独立”是指

\begin{equation}
P(C_1 C_2 \cdots C_n) = P(C_1)P(C_2) \cdots P(C_n) \tag{2.5}
\end{equation}

  以 $X$ 表示 $n$ 重伯努利试验中事件 $A$ 发生的次数,$X$ 是一个随机变量,所有可能取得值为 $0,1,2,\cdots,n$。$n$ 次试验中 $A$ 发生 $k$ 次的概率为 $\binom{n}{k} p^k (1-p)^{n-k}$,记 $q = 1 – p$,即有

\begin{equation}
P\{X = k\} = \binom{n}{k}p^k q^{n-k}, \; k = 0,1,2,\cdots,n \tag{2.6}
\end{equation}

  注意到 $\binom{n}{k} p^k q^{n-k}$ 刚好是闻香识 $(p+q)^n$ 的展开式中出现 $p_k$ 的那一项,我们称随机变量 $X$ 服从参数为 $n, p$ 的二项分布,并记为 $X \sim b(n, p)$。

  特别地,当 $n = 1$ 是二项分布$(2.6)$化为

\begin{equation}
P\{X=k\} = p^k q^{1-k}, \; k=0,1
\end{equation}

这就是 (0-1) 分布。

2.3. 泊松分布

  设随机变量 $X$ 所有可能取的值为 $0,1,2,\cdots$,而取各个值的概率为

\begin{equation}
P\{X=k\} = \frac{\lambda^k e^{-\lambda}}{k!}, \; k = 0,1,2,\cdots
\end{equation}

其中 $\lambda > 0$ 是常数,则称 $X$ 服从参数为 $\lambda$ 的泊松分布,记为 $X \sim \pi(\lambda)$。

  易知,$P{X = k} \geq 0, \; k = 0,1,2,\cdots$,且有

\begin{equation}
\sum_{k=0}^{\infty}P\{X=k\} = \sum_{k=0}^{\infty} \frac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda}\sum_{k=0}^{\infty} \frac{\lambda^k}{k!} = e^{-\lambda}e^{\lambda} = 1
\end{equation}

即 $P\{X=k\}$ 满足条件 $(2.2)$,$(2.3)$。

  泊松定理 设 $\lambda > 0$ 是一个常数,$n$ 是任意正整数,设 $np_n = \lambda$,则对于任一固定的非负整数 $k$,有

\begin{equation}
\lim_{n \rightarrow \infty} \binom{n}{k} p_n^k (1-p_n)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}
\end{equation}

  定理的条件 $np_n = \lambda$ (常数)意味着当 $n$ 很大时 $p_n$ 必定很小,因此,上述定义表明当 $n$ 很大,$p$ 很小($np = \lambda$)时有以下近似式

\begin{equation}
\binom{n}{k} p^k (1-p)^{n-k} \approx \frac{\lambda^k e^{-\lambda}}{k!} \tag{2.7}
\end{equation}

也就是说以 $n, p$ 为参数的二项分布的概率值可以由参数为 $\lambda = np$ 的泊松分布的概率值近似。上式也能用来做二项分布概率的近似计算。

3. 随机变量的函数分布

  定义 设 $X$ 是一个随机变量,$x$ 是任意实数,函数

\begin{equation}
F(x) = P\{X < x\}, \; -\infty < x < \infty
\end{equation}

称为 $X$ 的 分布函数

  对于任意实数 $x_1, x_2 \; (x_1 < x_2)$ 有

\begin{equation}
P\{x_1 < X \leq x_2\} = P\{X \leq x_2\} – P\{X \leq x_1\} = F(x_2) – F(x_1) \tag{3.1}
\end{equation}

  分布函数 $F(x)$ 具有以下的基本性质:

  1. $F(x)$ 是一个不减函数。事实上,由 $(3.1)$ 式对于任意实数 $x_1, x_2 \; (x_1 < x_2)$,有
    $$F(x_2) – F(x_1) = P\{x_1 < X \leq x_2\} \geq 0$$
  2. $0 \leq F(x) \leq 1$ 且
    $$F(-\infty) = \lim_{x \rightarrow -\infty} F(x) = 0, F(\infty) = \lim_{x \rightarrow \infty} F(x) = 1$$
  3. $F(x+0) = F(x)$,即 $F(x)$ 是右连续的。

  反之,可证具备性质 1,2,3 的函数 $F(x)$ 必是某个随机变量的分布函数。

4. 连续型随机变量及其概率密度

  如果对于随机变量 $X$ 的分布函数 $F(X)$,存在可积函数 $f(x)$,使对于任意实数 $x$ 有

\begin{equation}
F(x) = \int_{-\infty}^{x} f(t)dt \tag{4.1}
\end{equation}

则称 $X$ 为连续型随机变量,$f(x)$ 称为 $X$ 的概率密度函数,简称概率密度。由定义知道,改变概率密度 $f(x)$ 在个别点的函数值不影响分布函数 $F(X)$ 的取值,因此并不在乎改变概率密度在个别点上的值。

  由定义知道,概率密度 $f(x)$ 具有以下性质:

  1. $f(x) \geq 0$
  2. $\int_{-\infty}^{\infty} f(t)dt = 1$
  3. 对于任意实数 $x_1, x_2 \; (x_1 < x_2)$,
    $$P\{x+1 < X \leq x_2 \} = F(x_2) – F(x_1) = \int_{x_1}^{x_2}f(x)dx$$
  4. 若 $f(x)$ 在点 $x$ 处连续,则有 $F'(x) = f(x)$

  反之,若 $f(x)$ 具备性质 1,2,引入 $G(x) = \int_{-\infty}^{x} f(t)dt$,它是某一随机变量 $X$ 的分布函数, $f(x)$ 是 $X$ 的概率密度。

  需要指出的是,对于连续型随机变量 $X$ 来说,它取任意指定实数值 $a$ 的概率均为 $0$,即 $P\{X = a\} = 0$。据此,在计算连续型随机变量落在某一区间的概率时,可以不必区分该区间是开区间或闭区间或半闭区间。

  以后提到一个随机变量 $X$ 的“概率分布”时,指的是它的分布函数;或者,当 $X$ 时连续型随机变量时,指的是它的概率密度,当 $X$ 时离散型随机变量时,指的是它的分布律。

4.1. 均匀分布

  若连续性随机变量 $X$ 具有概率密度

\begin{equation}
f(x) =\begin{cases}
\frac{1}{b-a}, & a < x < b, \\
0, & 其他
\end{cases} \tag{4.5}
\end{equation}

则称 $X$ 在区间 $(a, b)$ 上服从均匀分布,记为 $X \sim U(a, b)$。

4.2. 指数分布

  若连续性随机变量 $X$ 的概率密度为

\begin{equation}
f(x) =\begin{cases}
\frac{1}{\theta}e^{-x/\theta}, & x > 0, \\
0, & 其他
\end{cases} \tag{4.7}
\end{equation}

其中 $\theta > 0$ 为常数,则称 $X$ 服从参数为 $\theta$ 的指数分布

  服从指数分布的随机变量 $X$ 具有无记忆性:对于任一 $s, t > 0$,有

\begin{equation}
P\{X > s+t | X > s\} = P\{X > t\} \tag{4.9}
\end{equation}

  事实上

\begin{align}
P\{X>s+t|X>s\} &= \frac{P\{(X>s+t) \cap (X>s)\}}{P\{X>s\}} \\
&= \frac{P\{X >s+t\}}{P\{X>s\}} = \frac{1-F(s+t)}{1-F(s)} \\
&= \frac{e^{-(s-t)/\theta}}{e^{-s/\theta}} = e^{-t/\theta} \\
&= P\{X > t\}
\end{align}

4.3. 正态分布

  若连续性随机变量 $X$ 的概率密度为

\begin{equation}
f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x – \mu)^2}{2\sigma^2}} \tag{4.10}
\end{equation}

其中 $\mu, \sigma(\sigma > 0)$ 为常数,则称 $X$ 服从参数为 $\mu, \sigma$ 的正态分布高斯(Gauss)分布,记为 $X \sim N(\mu, \sigma^2)$。

  它具有如下性质

  1. 曲线关于 $x = \mu$ 对称,这表明对于任意 $h > 0$ 有
    $$P(\mu – h < X \leq \mu) = P(\mu < X \leq \mu + h)$$
  2. 当 $x = \mu$ 时取到最大值
    $$f(\mu) = \frac{1}{\sqrt{2\pi}\sigma}$$

  在 $x = \mu \pm \sigma$ 处曲线有拐点,曲线以 $Ox$ 轴为渐近线。

  由 $(4.10)$ 式得 $X$ 的分布函数为

\begin{equation}
F(x) = \frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt \tag{4.12}
\end{equation}

  特别,当 $\mu = 1, \sigma = 1$ 时称随机变量 $X$ 服从标准正态分布。其概率密度和分布函数分别用 $\varphi(x)$, $\Phi(x)$ 表示,即有

\begin{equation}
\varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} \tag{4.13}
\end{equation}

\begin{equation}
\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-t^2/2} dt \tag{4.14}
\end{equation}

  易知

\begin{equation}
\Phi(-x) = 1 -\Phi(x) \tag{4.15}
\end{equation}

  一般,若 $X \sim N(\mu, \sigma^2)$,只要通过一个线性变换就能将它化成标准正态分布。

  引理 若 $X \sim N(\mu, \sigma^2)$,则 $Z = \frac{X – \mu}{\sigma} \sim N(0, 1)$。

  设 $X \sim N(\mu, \sigma^2)$,由 $\Phi(x)$ 的值可以得到

\begin{equation}
P(\mu – \sigma < X < \mu + \sigma) = \Phi(1) – \Phi(-1) = 68.26\% \\
P(\mu – 2\sigma < X < \mu + 2\sigma) = \Phi(1) – \Phi(-1) = 95.44\% \\
P(\mu – 3\sigma < X < \mu + 3\sigma) = \Phi(1) – \Phi(-1) = 99.74\%
\end{equation}

可见,尽管正态变量的取值范围时 $(-\infty, \infty)$,但它的值落在 $\mu – 3\sigma, \mu + 3\sigma$ 内几乎是肯定的是,即所谓的 “$3\sigma$” 准则。

  设 $X \sim N(0, 1)$,若 $z_{\alpha}$ 满足条件

\begin{equation}
P\{X > z_{\alpha}\} = \alpha, 0 < \alpha < 1 \tag{4.18}
\end{equation}

则称 $z_{\alpha}$ 为标准正态分布的 上 \alhpa 分位点,几个常用的 $z_{\alpha}$ 的值如下

alpha 0.001 0.005 0.01 0.025 0.05 0.10
z_alpha 3.090 2.576 2.326 1.960 1.645 1.282

5. 随机变量的函数分布

  定理 设随机变量 $X$ 具有概率密度 $f_X(x), -\infty < x < \infty$,又设函数 $g(x)$ 处处可导且恒有 $g'(x) > 0$(或恒有 $g'(x) < 0$),则 $Y = g(X)$ 是连续型随机变量,其概率密度为

\begin{equation}
f_Y(y) =\begin{cases}
f_X[h(y)]|h'(y)|, & \; \alpha < y < \beta \\
0, & \;其他
\end{cases}
\end{equation}

其中 $\alpha = min(g(-\infty), g(\infty))$,$\beta = max(g(-\infty), g(\infty))$,$h(y)$ 是 $g(x)$ 的反函数。