概率论 Cheat Sheet 23:随机变量和的协方差、方差及相关系数

  假设 $X, Y$ 联合连续且具有联合密度 $f(x, y)$,因此有

\begin{align}
E[g(X)h(Y)] &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x)h(y)f(x, y) \mathrm{d}x \mathrm{d}y = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x) h(y) f_X(x) f_Y(y) \mathrm{d}x \mathrm{d}y \\
&= \int_{-\infty}^{\infty} h(y) f_Y(y) \mathrm{d}y \int_{-\infty}^{\infty} g(x) f_X(x) \mathrm{d}x = E[g(X)]E[h(Y)]
\end{align}

离散情形也可以得到类似的结果,于是有以下命题成立。

  命题 如果 $X, Y$ 相互独立,那么对于任何函数 $h$ 和 $g$,有下式成立

\begin{equation}
E[g(X)h(Y)] = E[g(X)]E[h(Y)] \tag{1}
\end{equation}

  上式说明,独立随机变量乘积的期望等于它们各自期望的乘积。

1. 协方差

  单个随机变量的期望和方差给出了该随机变量的信息,两个随机变量的协方差给出了两个随机变量之间关系的信息。

  定义 $X$ 和 $Y$ 之间的协方差 $\mathrm{Cov}(X, Y)$ 定义为

\begin{equation}
\mathrm{Cov}(X, Y) = E[(X – E[X])(Y – E[Y])] \tag{2}
\end{equation}

  把上式右边的表达式展开,得到

\begin{align}
\mathrm{Cov}(X, Y) &= E[XY – E[X]Y – XE[Y] + E[X]E[Y]] \\
&= E[XY] – E[X]E[Y] – E[X]E[Y] + E[X]E[Y] \\
&= E[XY] – E[X]E[Y] \tag{3}
\end{align}

  需要注意的是,若 $X$ 和 $Y$ 相互独立,则由式 $(1)$ 可知 $\mathrm{Cov}(X, Y) = 0$,但其逆命题却不真。

  命题 协方差具有如下性质:

(i) $\mathrm{Cov}(X, Y) = \mathrm{Cov}(Y, X)$
(ii) $\mathrm{Cov}(X, X) = \mathrm{Var}(X)$
(iii) $\mathrm{Cov}(aX, Y) = a\mathrm{Cov}(X, Y)$
(iv) $\mathrm{Cov}(\sum\limits_{i=1}^n X_i, \sum\limits_{j=1}^m Y_j) = \sum\limits_{i=1}^n \sum\limits_{j=1}^m X_i, Y_j$

2. 方差

  利用上面的 (ii) 和 (iv),取 $Y_j = X_j$($j = 1, \cdots, n$),可得

\begin{align}
\mathrm{Var}(\sum_{i=1}^n X_i) &\overset{(ii)}{=} \mathrm{Cov}(\sum_{i=1}^n X_i, \sum_{j=1}^n X_i) \overset{(iv)}{=} \sum_{i=1}^n \sum_{j=1}^n \mathrm{Cov}(X_i, X_j) \\
&= \sum_{i=1}^n \mathrm{Var}(X_i) + \underset{i \neq j}{\sum\sum} \mathrm{Cov}(X_i, X_j)
\end{align}

在上式中,每对 $i, j$($i \neq j$)在二重加和中出现了两次(不考虑顺序),因此上式等价于

\begin{equation}
\mathrm{Var}(\sum_{i=1}^n X_i) = \sum_{i=1}^n \mathrm{Var}(X_i) + 2 \underset{i < j}{\sum\sum} \mathrm{Cov}(X_i, X_j) \tag{4}
\end{equation}

如果 $X_1, \cdots X_n$ 两两独立,即对于 $i \neq j$,$X_i$ 与 $X_j$ 相互独立,则式 $(4)$ 可化简为

\begin{equation}
\mathrm{Var}(\sum_{i=1}^n X_i) = \sum_{i=1}^n \mathrm{Var}(X_i) \tag{5}
\end{equation}

2.1. 样本方差

  设 $X_1, \cdots X_n$ 为独立同分布的随机变量序列,期望为 $\mu$,方差为 $\sigma^2$,如前文定义,样本均值为

\begin{equation}
\overline{X} = \frac{\sum\limits_{i=1}^n X_i}{n}
\end{equation}

计算 $\overline{X}$ 的方差如下

\begin{equation}
\mathrm{Var}(\overline{X}) = \Big(\frac{1}{n}\Big)^2 \mathrm{Var}\Big(\sum_{i=1}^n X_i\Big) = \Big(\frac{1}{n}\Big)^2 \sum_{i=1}^n \mathrm{Var} \Big(X_i\Big) = \frac{\sigma^2}{n}
\end{equation}

$X_i – \overline{X}$($i = 1, \cdots, n$)成为离差,即个体数据与样本均值之差。定义样本方差

\begin{equation}
S^2 = \sum_{i=1}^n \frac{(X_i – \overline{X})^2}{n – 1} \tag{5}
\end{equation}

由式 $(5)$ 可得

\begin{align}
(n – 1)S^2 &= \sum_{i=1}^n (X_i – \mu + \mu – \overline{X})^2 = \sum_{i=1}^n (X_i – \mu)^2 + \sum_{i=1}^n (\overline{X} – \mu)^2 + 2(\overline{X} – \mu) \sum_{i=1}^n (X_i – \mu) \\
&= \sum_{i=1}^n (X_i – \mu)^2 + n(\overline{X} – \mu)^2 – 2(\overline{X} – \mu) \cdot n (\overline{X} – \mu) = \sum_{i=1}^n (X_i – \mu)^2 – n(\overline{X} – \mu)^2
\end{align}

上式等号两端求期望,得

\begin{equation}
(n – 1)E[S^2] = \sum_{i=1}^n E[(X_i – \mu)^2] – nE[(\overline{X} – \mu)^2] = n\sigma^2 – n\mathrm{Var}(\overline{X}) = (n – 1)\sigma^2
\end{equation}

由上式解得

\begin{equation}
E[S^2] = \sigma^2
\end{equation}

2.2. 二项随机变量的方差

  设 $X$ 服从参数为 $(n, p)$ 的二项分布,则 $X$ 可以表示 $n$ 次独立重复试验的成功次数,每次试验的成功概率为 $p$。记 $X_i$($i = 1, \cdots, n$)为独立同分布的伯努利随机变量

\begin{equation}
X_i =\begin{cases}1 & 第 \; i \; 次试验成功 \\ 0 & 其他\end{cases}
\end{equation}

\begin{equation}
X = X_1 + \cdots + X_n
\end{equation}

由式 $(4)$ 可得

\begin{equation}
\mathrm{Var}(X) = \mathrm{Var}(X_1) + \cdots + \mathrm{Var}(X_n)
\end{equation}

又因为

\begin{equation}
\mathrm{Var}(X_i) = E[X_i^2] – (E[X_i])^2 = E[X_i] – (E[X_i])^2 = p – p^2
\end{equation}

于是

\begin{equation}
\mathrm{Var}(X) = np(1 – p)
\end{equation}

这与前文得到的结论一致。

3. 相关系数

  设 $X$ 和 $Y$ 为两个随机变量,假定 $\mathrm{Var}(X)$ 和 $\mathrm{Var}(Y)$ 均大于 $0$,则 $X$ 和 $Y$ 的相关系数 $\rho(X, Y)$ 定义为

\begin{equation}
\rho(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sqrt{\mathrm{Var}(X) \mathrm{Var}(Y)}} \tag{6}
\end{equation}

可以证明有 $-1 \leq \rho(X, Y) \leq 1$。

  相关系数是 $X$ 和 $Y$ 之间线性相关程度的一种度量。当 $\rho(X, Y)$ 接近 $+1$ 或 $-1$ 时,表明 $X$ 和 $Y$ 之间具有很高的线性相关行;当 $\rho(X, Y)$ 接近 $0$ 时,表示两者之间缺乏线性相关性。$\rho(X, Y)$ 为正说明当 $X$ 增加时 $Y$ 趋于增加;$\rho(X, Y)$ 为负说明当 $X$ 增加时 $Y$ 趋于下降。若 $\rho(X, Y) = 0$,说明 $X$ 和 $Y$ 时不相关的(Uncorrelated)。