概率论 Cheat Sheet 12:正态随机变量
Contents [show]
1. 定义
如果随机变量 X 的密度函数为
\begin{equation} f(x) = \frac{1}{\sqrt{2\pi}\sigma } \mathrm{e}^{-\frac{(x – \mu)^2}{2\sigma^2}} \qquad -\infty < x < \infty \tag{1} \end{equation}
则称 X 是服从参数为 \mu 和 \sigma^2 的正态分布的随机变量,简称为正态随机变量。该密度函数是一条关于 \mu 对称的钟形曲线。
如果 X 是一个服从参数为 \mu 和 \sigma^2 的正态分布的随机变量,令 Y = aX + b,X 和 Y 的分布函数分别为 F_X 和 F_Y,则有
\begin{equation} F_Y(x) = P\{Y \leq x\} = P\{aX + b \leq x\} = P\{X \leq \frac{x – b}{a}\} = F_X(\frac{x – b}{a}) \end{equation}
求导可得 Y 的密度函数
\begin{align} f_Y(x) &= \frac{1}{a} f_X(\frac{x – b}{a}) = \frac{1}{\sqrt{2\pi}a\sigma} \exp\Big\{-\Big(\frac{x – b}{a} – \mu\Big)^2 / (2\sigma^2)\Big\} \\ &= \frac{1}{\sqrt{2\pi}a\sigma} \exp\{-(x – b – a\mu)^2 / [2(a\sigma)^2]\} \end{align}
上式说明 Y= aX + b 服从参数为 a\mu + b 和 a^2 \sigma^2 的正态分布。
类似地,如果 X 是一个参数为 (\mu, \sigma^2) 的正态随机变量,那么 Z = \frac{X – \mu}{\sigma} 就是一个参数为 (0, 1) 的正态随机变量,称为标准正态随机变量。
一般将标准正态随机变量的分布函数记为 \Phi(x),即
\begin{equation} \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-y^2/2} \mathrm{d}y \end{equation}
由标准正态密度函数的对称性可知,对于一个非负数 x,\Phi(x) 的值可以通过下式计算得到
\begin{equation} \Phi(-x) = 1 – \Phi(x) \qquad -\infty < x < \infty \tag{2} \end{equation}
上式表明,如果 Z 是一个标准正态随机变量,那么
\begin{equation} P\{Z \leq -x\} = P\{Z > x\} \qquad -\infty < x < \infty \tag{3} \end{equation}
当 X 服从参数为 (\mu, \sigma^2) 的正态分布时,Z = \frac{X – \mu}{\sigma} 服从标准正态分布,X 的分布函数可以写成
\begin{equation} F_X(a) = P\{X \leq a\} = P(\frac{X – \mu}{\sigma} \leq \frac{a – \mu}{\sigma}) = \Phi(\frac{a – \mu}{\sigma}) \tag{4} \end{equation}
2. 期望和方差
标准正态随机变量 Z 的期望和方差为
\begin{equation} E[Z] = \int_{-\infty}^{\infty} x f_z(x) \mathrm{d}x = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} x e^{-x^2/2} \mathrm{d}x = -\frac{1}{\sqrt{2\pi}} e^{-x^2/2} \Big|_{-\infty}^{\infty} = 0 \end{equation}
\begin{equation} Var(Z) = E[Z^2] = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} x^2 e^{-x^2/2} \mathrm{d}x \end{equation}
通过分部积分,令 u = x,\mathrm{d}v = xe^{-x^2 / 2},得
\begin{equation} Var(Z) = \frac{1}{\sqrt{2\pi}} \big( -xe^{-x^2/2} \Big\vert_{-\infty}^{\infty} + \int_{-\infty}^{\infty} e^{-x^2/2} \mathrm{d}x \big) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-x^2/2} \mathrm{d}x = 1 \end{equation}
由 X = \mu + \delta Z 得
\begin{equation} E[X] = \mu + \sigma E[Z] = \mu \tag{5} \end{equation}
\begin{equation} Var(X) = \sigma^2 E[Z] = \sigma^2 \tag{6} \end{equation}
3. 二项分布的正态近似
棣莫弗-拉普拉斯极限定理 在 n 次独立重复试验中,设每次成功的概率为 p,记成功的总次数为 S_n,那么对任意 a < b,当 n \rightarrow \infty 时
\begin{equation} P\Big\{ a \leq \frac{S_n – np}{\sqrt{np(1 – p)}} \leq b \Big\} \rightarrow \Phi(b) – \Phi(a) \end{equation}
棣莫弗-拉普拉斯极限定理表明,当 n 足够大时,参数为 (n, p) 的二项分布随机变量可以由正态随机变量来近似,其中正态随机变量的期望和方差与二项随机变量的期望和方差相同。
结合前文,二项分布现在有两种可能的近似:当 n 较大而 p 较小时,二项分布很好地近似于泊松分布;当 np(1 – p) 较大时,二项分布很好地近似于正态分布。一般来说,当 np(1 – p) \geq 10 时,正态分布的近似效果就非常好。