概率论 Cheat Sheet 12:正态随机变量
Contents
1. 定义
如果随机变量 $X$ 的密度函数为
\begin{equation}
f(x) = \frac{1}{\sqrt{2\pi}\sigma } \mathrm{e}^{-\frac{(x – \mu)^2}{2\sigma^2}} \qquad -\infty < x < \infty \tag{1}
\end{equation}
则称 $X$ 是服从参数为 $\mu$ 和 $\sigma^2$ 的正态分布的随机变量,简称为正态随机变量。该密度函数是一条关于 $\mu$ 对称的钟形曲线。
如果 $X$ 是一个服从参数为 $\mu$ 和 $\sigma^2$ 的正态分布的随机变量,令 $Y = aX + b$,$X$ 和 $Y$ 的分布函数分别为 $F_X$ 和 $F_Y$,则有
\begin{equation}
F_Y(x) = P\{Y \leq x\} = P\{aX + b \leq x\} = P\{X \leq \frac{x – b}{a}\} = F_X(\frac{x – b}{a})
\end{equation}
求导可得 $Y$ 的密度函数
\begin{align}
f_Y(x) &= \frac{1}{a} f_X(\frac{x – b}{a}) = \frac{1}{\sqrt{2\pi}a\sigma} \exp\Big\{-\Big(\frac{x – b}{a} – \mu\Big)^2 / (2\sigma^2)\Big\} \\
&= \frac{1}{\sqrt{2\pi}a\sigma} \exp\{-(x – b – a\mu)^2 / [2(a\sigma)^2]\}
\end{align}
上式说明 $Y= aX + b$ 服从参数为 $a\mu + b$ 和 $a^2 \sigma^2$ 的正态分布。
类似地,如果 $X$ 是一个参数为 $(\mu, \sigma^2)$ 的正态随机变量,那么 $Z = \frac{X – \mu}{\sigma}$ 就是一个参数为 $(0, 1)$ 的正态随机变量,称为标准正态随机变量。
一般将标准正态随机变量的分布函数记为 $\Phi(x)$,即
\begin{equation}
\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-y^2/2} \mathrm{d}y
\end{equation}
由标准正态密度函数的对称性可知,对于一个非负数 $x$,$\Phi(x)$ 的值可以通过下式计算得到
\begin{equation}
\Phi(-x) = 1 – \Phi(x) \qquad -\infty < x < \infty \tag{2}
\end{equation}
上式表明,如果 $Z$ 是一个标准正态随机变量,那么
\begin{equation}
P\{Z \leq -x\} = P\{Z > x\} \qquad -\infty < x < \infty \tag{3}
\end{equation}
当 $X$ 服从参数为 $(\mu, \sigma^2)$ 的正态分布时,$Z = \frac{X – \mu}{\sigma}$ 服从标准正态分布,$X$ 的分布函数可以写成
\begin{equation}
F_X(a) = P\{X \leq a\} = P(\frac{X – \mu}{\sigma} \leq \frac{a – \mu}{\sigma}) = \Phi(\frac{a – \mu}{\sigma}) \tag{4}
\end{equation}
2. 期望和方差
标准正态随机变量 $Z$ 的期望和方差为
\begin{equation}
E[Z] = \int_{-\infty}^{\infty} x f_z(x) \mathrm{d}x = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} x e^{-x^2/2} \mathrm{d}x = -\frac{1}{\sqrt{2\pi}} e^{-x^2/2} \Big|_{-\infty}^{\infty} = 0
\end{equation}
\begin{equation}
Var(Z) = E[Z^2] = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} x^2 e^{-x^2/2} \mathrm{d}x
\end{equation}
通过分部积分,令 $u = x$,$\mathrm{d}v = xe^{-x^2 / 2}$,得
\begin{equation}
Var(Z) = \frac{1}{\sqrt{2\pi}} \big( -xe^{-x^2/2} \Big\vert_{-\infty}^{\infty} + \int_{-\infty}^{\infty} e^{-x^2/2} \mathrm{d}x \big) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-x^2/2} \mathrm{d}x = 1
\end{equation}
由 $X = \mu + \delta Z$ 得
\begin{equation}
E[X] = \mu + \sigma E[Z] = \mu \tag{5}
\end{equation}
\begin{equation}
Var(X) = \sigma^2 E[Z] = \sigma^2 \tag{6}
\end{equation}
3. 二项分布的正态近似
棣莫弗-拉普拉斯极限定理 在 $n$ 次独立重复试验中,设每次成功的概率为 $p$,记成功的总次数为 $S_n$,那么对任意 $a < b$,当 $n \rightarrow \infty$ 时
\begin{equation}
P\Big\{ a \leq \frac{S_n – np}{\sqrt{np(1 – p)}} \leq b \Big\} \rightarrow \Phi(b) – \Phi(a)
\end{equation}
棣莫弗-拉普拉斯极限定理表明,当 $n$ 足够大时,参数为 $(n, p)$ 的二项分布随机变量可以由正态随机变量来近似,其中正态随机变量的期望和方差与二项随机变量的期望和方差相同。
结合前文,二项分布现在有两种可能的近似:当 $n$ 较大而 $p$ 较小时,二项分布很好地近似于泊松分布;当 $np(1 – p)$ 较大时,二项分布很好地近似于正态分布。一般来说,当 $np(1 – p) \geq 10$ 时,正态分布的近似效果就非常好。