概率论 Cheat Sheet 12：正态随机变量

Author: nex3z 2019-01-15

Contents

1. 定义
2. 期望和方差
3. 二项分布的正态近似

1. 定义

　　如果随机变量 $X$ 的密度函数为

\begin{equation}
f(x) = \frac{1}{\sqrt{2\pi}\sigma } \mathrm{e}^{-\frac{(x – \mu)^2}{2\sigma^2}} \qquad -\infty < x < \infty \tag{1}
\end{equation}

则称 $X$ 是服从参数为 $\mu$ 和 $\sigma^2$ 的正态分布的随机变量，简称为正态随机变量。该密度函数是一条关于 $\mu$ 对称的钟形曲线。

　　如果 $X$ 是一个服从参数为 $\mu$ 和 $\sigma^2$ 的正态分布的随机变量，令 $Y = aX + b$，$X$ 和 $Y$ 的分布函数分别为 $F_X$ 和 $F_Y$，则有

\begin{equation}
F_Y(x) = P\{Y \leq x\} = P\{aX + b \leq x\} = P\{X \leq \frac{x – b}{a}\} = F_X(\frac{x – b}{a})
\end{equation}

求导可得 $Y$ 的密度函数

\begin{align}
f_Y(x) &= \frac{1}{a} f_X(\frac{x – b}{a}) = \frac{1}{\sqrt{2\pi}a\sigma} \exp\Big\{-\Big(\frac{x – b}{a} – \mu\Big)^2 / (2\sigma^2)\Big\} \\
&= \frac{1}{\sqrt{2\pi}a\sigma} \exp\{-(x – b – a\mu)^2 / [2(a\sigma)^2]\}
\end{align}

上式说明 $Y= aX + b$ 服从参数为 $a\mu + b$ 和 $a^2 \sigma^2$ 的正态分布。

　　类似地，如果 $X$ 是一个参数为 $(\mu, \sigma^2)$ 的正态随机变量，那么 $Z = \frac{X – \mu}{\sigma}$ 就是一个参数为 $(0, 1)$ 的正态随机变量，称为标准正态随机变量。

　　一般将标准正态随机变量的分布函数记为 $\Phi(x)$，即

\begin{equation}
\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-y^2/2} \mathrm{d}y
\end{equation}

　　由标准正态密度函数的对称性可知，对于一个非负数 $x$，$\Phi(x)$ 的值可以通过下式计算得到

\begin{equation}
\Phi(-x) = 1 – \Phi(x) \qquad -\infty < x < \infty \tag{2}
\end{equation}

上式表明，如果 $Z$ 是一个标准正态随机变量，那么

\begin{equation}
P\{Z \leq -x\} = P\{Z > x\} \qquad -\infty < x < \infty \tag{3}
\end{equation}

　　当 $X$ 服从参数为 $(\mu, \sigma^2)$ 的正态分布时，$Z = \frac{X – \mu}{\sigma}$ 服从标准正态分布，$X$ 的分布函数可以写成

\begin{equation}
F_X(a) = P\{X \leq a\} = P(\frac{X – \mu}{\sigma} \leq \frac{a – \mu}{\sigma}) = \Phi(\frac{a – \mu}{\sigma}) \tag{4}
\end{equation}

2. 期望和方差

　　标准正态随机变量 $Z$ 的期望和方差为

\begin{equation}
E[Z] = \int_{-\infty}^{\infty} x f_z(x) \mathrm{d}x = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} x e^{-x^2/2} \mathrm{d}x = -\frac{1}{\sqrt{2\pi}} e^{-x^2/2} \Big|_{-\infty}^{\infty} = 0
\end{equation}

\begin{equation}
Var(Z) = E[Z^2] = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} x^2 e^{-x^2/2} \mathrm{d}x
\end{equation}

通过分部积分，令 $u = x$，$\mathrm{d}v = xe^{-x^2 / 2}$，得

\begin{equation}
Var(Z) = \frac{1}{\sqrt{2\pi}} \big( -xe^{-x^2/2} \Big\vert_{-\infty}^{\infty} + \int_{-\infty}^{\infty} e^{-x^2/2} \mathrm{d}x \big) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-x^2/2} \mathrm{d}x = 1
\end{equation}

由 $X = \mu + \delta Z$ 得

\begin{equation}
E[X] = \mu + \sigma E[Z] = \mu \tag{5}
\end{equation}

\begin{equation}
Var(X) = \sigma^2 E[Z] = \sigma^2 \tag{6}
\end{equation}

3. 二项分布的正态近似

　　棣莫弗-拉普拉斯极限定理　在 $n$ 次独立重复试验中，设每次成功的概率为 $p$，记成功的总次数为 $S_n$，那么对任意 $a < b$，当 $n \rightarrow \infty$ 时

\begin{equation}
P\Big\{ a \leq \frac{S_n – np}{\sqrt{np(1 – p)}} \leq b \Big\} \rightarrow \Phi(b) – \Phi(a)
\end{equation}

　　棣莫弗-拉普拉斯极限定理表明，当 $n$ 足够大时，参数为 $(n, p)$ 的二项分布随机变量可以由正态随机变量来近似，其中正态随机变量的期望和方差与二项随机变量的期望和方差相同。

　　结合前文，二项分布现在有两种可能的近似：当 $n$ 较大而 $p$ 较小时，二项分布很好地近似于泊松分布；当 $np(1 – p)$ 较大时，二项分布很好地近似于正态分布。一般来说，当 $np(1 – p) \geq 10$ 时，正态分布的近似效果就非常好。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31