Processing math: 11%

概率论 Cheat Sheet 23:随机变量和的协方差、方差及相关系数

  假设 X,Y 联合连续且具有联合密度 f(x,y),因此有

E[g(X)h(Y)]=g(x)h(y)f(x,y)dxdy=g(x)h(y)fX(x)fY(y)dxdy=h(y)fY(y)dyg(x)fX(x)dx=E[g(X)]E[h(Y)]

离散情形也可以得到类似的结果,于是有以下命题成立。

  命题 如果 X,Y 相互独立,那么对于任何函数 hg,有下式成立

E[g(X)h(Y)]=E[g(X)]E[h(Y)]

  上式说明,独立随机变量乘积的期望等于它们各自期望的乘积。

1. 协方差

  单个随机变量的期望和方差给出了该随机变量的信息,两个随机变量的协方差给出了两个随机变量之间关系的信息。

  定义 XY 之间的协方差 Cov(X,Y) 定义为

\begin{equation} \mathrm{Cov}(X, Y) = E[(X – E[X])(Y – E[Y])] \tag{2} \end{equation}

  把上式右边的表达式展开,得到

\begin{align} \mathrm{Cov}(X, Y) &= E[XY – E[X]Y – XE[Y] + E[X]E[Y]] \\ &= E[XY] – E[X]E[Y] – E[X]E[Y] + E[X]E[Y] \\ &= E[XY] – E[X]E[Y] \tag{3} \end{align}

  需要注意的是,若 XY 相互独立,则由式 (1) 可知 \mathrm{Cov}(X, Y) = 0,但其逆命题却不真。

  命题 协方差具有如下性质:

(i) \mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X)
(ii) \mathrm{Cov}(X, X) = \mathrm{Var}(X)
(iii) \mathrm{Cov}(aX, Y) = a\mathrm{Cov}(X, Y)
(iv) \mathrm{Cov}(\sum\limits_{i=1}^n X_i, \sum\limits_{j=1}^m Y_j) = \sum\limits_{i=1}^n \sum\limits_{j=1}^m X_i, Y_j

2. 方差

  利用上面的 (ii) 和 (iv),取 Y_j = X_jj = 1, \cdots, n),可得

\begin{align} \mathrm{Var}(\sum_{i=1}^n X_i) &\overset{(ii)}{=} \mathrm{Cov}(\sum_{i=1}^n X_i, \sum_{j=1}^n X_i) \overset{(iv)}{=} \sum_{i=1}^n \sum_{j=1}^n \mathrm{Cov}(X_i, X_j) \\ &= \sum_{i=1}^n \mathrm{Var}(X_i) + \underset{i \neq j}{\sum\sum} \mathrm{Cov}(X_i, X_j) \end{align}

在上式中,每对 i, ji \neq j)在二重加和中出现了两次(不考虑顺序),因此上式等价于

\begin{equation} \mathrm{Var}(\sum_{i=1}^n X_i) = \sum_{i=1}^n \mathrm{Var}(X_i) + 2 \underset{i < j}{\sum\sum} \mathrm{Cov}(X_i, X_j) \tag{4} \end{equation}

如果 X_1, \cdots X_n 两两独立,即对于 i \neq jX_iX_j 相互独立,则式 (4) 可化简为

\begin{equation} \mathrm{Var}(\sum_{i=1}^n X_i) = \sum_{i=1}^n \mathrm{Var}(X_i) \tag{5} \end{equation}

2.1. 样本方差

  设 X_1, \cdots X_n 为独立同分布的随机变量序列,期望为 \mu,方差为 \sigma^2,如前文定义,样本均值为

\begin{equation} \overline{X} = \frac{\sum\limits_{i=1}^n X_i}{n} \end{equation}

计算 \overline{X} 的方差如下

\begin{equation} \mathrm{Var}(\overline{X}) = \Big(\frac{1}{n}\Big)^2 \mathrm{Var}\Big(\sum_{i=1}^n X_i\Big) = \Big(\frac{1}{n}\Big)^2 \sum_{i=1}^n \mathrm{Var} \Big(X_i\Big) = \frac{\sigma^2}{n} \end{equation}

X_i – \overline{X}i = 1, \cdots, n)成为离差,即个体数据与样本均值之差。定义样本方差

\begin{equation} S^2 = \sum_{i=1}^n \frac{(X_i – \overline{X})^2}{n – 1} \tag{5} \end{equation}

由式 (5) 可得

\begin{align} (n – 1)S^2 &= \sum_{i=1}^n (X_i – \mu + \mu – \overline{X})^2 = \sum_{i=1}^n (X_i – \mu)^2 + \sum_{i=1}^n (\overline{X} – \mu)^2 + 2(\overline{X} – \mu) \sum_{i=1}^n (X_i – \mu) \\ &= \sum_{i=1}^n (X_i – \mu)^2 + n(\overline{X} – \mu)^2 – 2(\overline{X} – \mu) \cdot n (\overline{X} – \mu) = \sum_{i=1}^n (X_i – \mu)^2 – n(\overline{X} – \mu)^2 \end{align}

上式等号两端求期望,得

\begin{equation} (n – 1)E[S^2] = \sum_{i=1}^n E[(X_i – \mu)^2] – nE[(\overline{X} – \mu)^2] = n\sigma^2 – n\mathrm{Var}(\overline{X}) = (n – 1)\sigma^2 \end{equation}

由上式解得

\begin{equation} E[S^2] = \sigma^2 \end{equation}

2.2. 二项随机变量的方差

  设 X 服从参数为 (n, p) 的二项分布,则 X 可以表示 n 次独立重复试验的成功次数,每次试验的成功概率为 p。记 X_ii = 1, \cdots, n)为独立同分布的伯努利随机变量

\begin{equation} X_i =\begin{cases}1 & 第 \; i \; 次试验成功 \\ 0 & 其他\end{cases} \end{equation}

\begin{equation} X = X_1 + \cdots + X_n \end{equation}

由式 (4) 可得

\begin{equation} \mathrm{Var}(X) = \mathrm{Var}(X_1) + \cdots + \mathrm{Var}(X_n) \end{equation}

又因为

\begin{equation} \mathrm{Var}(X_i) = E[X_i^2] – (E[X_i])^2 = E[X_i] – (E[X_i])^2 = p – p^2 \end{equation}

于是

\begin{equation} \mathrm{Var}(X) = np(1 – p) \end{equation}

这与前文得到的结论一致。

3. 相关系数

  设 XY 为两个随机变量,假定 \mathrm{Var}(X)\mathrm{Var}(Y) 均大于 0,则 XY 的相关系数 \rho(X, Y) 定义为

\begin{equation} \rho(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X) \mathrm{Var}(Y)}} \tag{6} \end{equation}

可以证明有 -1 \leq \rho(X, Y) \leq 1

  相关系数是 XY 之间线性相关程度的一种度量。当 \rho(X, Y) 接近 +1-1 时,表明 XY 之间具有很高的线性相关行;当 \rho(X, Y) 接近 0 时,表示两者之间缺乏线性相关性。\rho(X, Y) 为正说明当 X 增加时 Y 趋于增加;\rho(X, Y) 为负说明当 X 增加时 Y 趋于下降。若 \rho(X, Y) = 0,说明 XY 时不相关的(Uncorrelated)。