线性代数 Cheat Sheet 7-5:图像处理和统计学中的应用

  主成分分析用于分析多维数据,如研究生产塑料材料的化学过程时,为了监控生产过程,在材料生产过程中取得 $300$ 个样本,且每一个样本经过 8 个一组的测试,实验报告是一个属于 $\mathbb{R}^8$ 的向量,这类向量集合形成一个 $8 \times 300$ 的矩阵,称为观测矩阵

1. 均值和协方差

  令 $\begin{bmatrix} \boldsymbol X_1 & \cdots & \boldsymbol X_N \end{bmatrix}$ 是如上描述的一个 $p \times N$ 观测矩阵。观测向量 $\boldsymbol X_1 , \cdots, \boldsymbol X_N$ 的样本均值 $M$ 由下式给出:

\begin{equation}
M = \frac{1}{N}(\boldsymbol X_1 + \cdots + \boldsymbol X_N)
\end{equation}

样本均值是观测数据的“中心”。对 $k = 1, \cdots, N$,令

\begin{equation}
\hat{\boldsymbol X}_k = \boldsymbol X_k – M
\end{equation}

$p \times N$ 矩阵的列

\begin{equation}
B = \begin{bmatrix} \hat{\boldsymbol X}_1 & \hat{\boldsymbol X}_2 & \cdots & \hat{\boldsymbol X}_N \end{bmatrix}
\end{equation}

具有零样本均值,这样的 $B$ 称为平均偏差形式

  (样本)协方差矩阵是一个 $p \times p$ 矩阵 $S$,其定义为

\begin{equation}
S = \frac{1}{N-1}BB^\mathsf{T}
\end{equation}

由于任何具有 $BB^\mathsf{T}$ 形式的矩阵是半正定的,所以 $S$ 也是半正定的。

  为讨论 $S = [s_{ij}]$ 中的元素,令 $X$ 表示在观测向量集合中变化的向量,用 $x_1, \cdots, x_p$ 表示 $X$ 中的元素,那么例如 $x_i$ 是一个在 $\boldsymbol X_1, \cdots, \boldsymbol X_n$ 各项量第一个元素所构成的集合中变化的数值。对 $j = 1, \cdots, p$,$S$ 中的对角元素 $s_{jj}$ 称为 $x_j$ 的方差。$x_j$ 的方差用来度量 $x_j$ 值的分散性。

  数据的总方差是指 $S$ 中对角线上方差的总和。一般地,一个方阵 $S$ 中对角线元素之和称为矩阵的,记作 $\mathrm{tr}(S)$。这样

\begin{equation}
\{总方差\} = \mathrm{tr}(S)
\end{equation}

  $S$ 中的元素 $s_{ij}$($i \neq j$)称为 $x_i$ 和 $x_j$ 的协方差。如果 $x_i$ 和 $x_j$ 的协方差为零,则称 $x_i$ 和 $x_j$ 是无关的。如果大部分或所有变量 $x_1, \cdots, x_p$ 是无关的,即当 $\boldsymbol X_1 , \cdots, \boldsymbol X_N$ 的协方差矩阵是对角阵或几乎是对角阵时,则 $\boldsymbol X_1 , \cdots, \boldsymbol X_N$ 中多数变量的数据分析可以简化。

2. 主成分分析

  为简单起见,假设矩阵 $\begin{bmatrix} \boldsymbol X_1 & \cdots & \boldsymbol X_N \end{bmatrix}$ 已经是平均偏差形式。主成分分析的目标是找到一个 $p \times p$ 矩阵 $P = \begin{bmatrix} \boldsymbol u_1 & \cdots & \boldsymbol u_p \end{bmatrix}$,确定一个变量代换 $\boldsymbol X = P \boldsymbol Y$,或

\begin{equation}
\begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_p\end{bmatrix} =
\begin{bmatrix} \boldsymbol u_1 & \boldsymbol u_2 & \cdots & \boldsymbol u_p \end{bmatrix}
\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_p\end{bmatrix}
\end{equation}

并具有新的变量 $y_1, \cdots, y_p$ 两两无关的性质,且整理后的方差具有递减顺序。

  变量的正交变换 $\boldsymbol X = P \boldsymbol Y$ 说明,每一个观测向量 $\boldsymbol X_k$ 得到了一个“新名称” $\boldsymbol Y_k$,使得 $\boldsymbol X_k = P \boldsymbol Y_k$。注意到 $\boldsymbol Y_k$ 是 $\boldsymbol X_k$ 关于 $P$ 的列的坐标向量,且对 $k = 1, \cdots, N$,有 $\boldsymbol Y_k = P^{-1}\boldsymbol X_k = P^\mathsf{T} \boldsymbol X_k$。

  不难验证,对任何正交矩阵 $P$,$\boldsymbol Y_1, \cdots, \boldsymbol Y_N$ 的协方差是 $P^\mathsf{T}SP$($S$ 是 $\boldsymbol X_1, \cdots, \boldsymbol X_N$ 的协方差矩阵)。于是,期望的正交矩阵 $P$ 是一矩阵使得 $P^\mathsf{T}SP$ 为对角矩阵(由 $y_1, \cdots, y_p$ 两两无关,$P^\mathsf{T}SP$ 非对角线元素为零)。设 $D$ 是对角矩阵且 $S$ 的特征值 $\lambda_1, \cdots, \lambda_p$ 位于对角线上,重新整理使得 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$,并令 $P$ 是正交矩阵,它的列时对应单位特征向量 $\boldsymbol u_1, \cdots, \boldsymbol u_p$,那么 $S = PDP^\mathsf{T}$ 且 $P^\mathsf{T}SP = D$。

  协方差矩阵 $S$ 的单位特征向量 $\boldsymbol u_1, \cdots, \boldsymbol u_p$ 称为(观测矩阵中的)数据的主成分第一主成分是 $S$ 中最大特征值对应的特征向量。第二主成分是 $S$ 中第二大特征值对应的特征向量。以此类推。

  第一主成分 $\boldsymbol u_1$ 可用下列方式确定新变量 $y_1$,设 $c_1, \cdots, c_p$ 是 $\boldsymbol u_1$ 中的元素,由于 $\boldsymbol u_1^\mathsf{T}$ 是 $P^\mathsf{T}$ 的行,故方程 $\boldsymbol Y = P^\mathsf{T} \boldsymbol X$ 表明

\begin{equation}
y_1 = \boldsymbol u_1^\mathsf{T} \boldsymbol X = c_1 x_1 + c_2 x_2 + \cdots + c_p x_p
\end{equation}

于是 $y_1$ 是原变量 $x_1, \cdots, x_p$ 的线性组合,并用特征向量 $\boldsymbol u_1$ 中的元素作为权值。用同样的方式,$\boldsymbol u_2$ 确定变量 $y_2$,以此类推。

3. 多维变量数据的降维

  对大多数数据的变化或动态范围,当新变量 $y_1, \cdots, y_p$ 中的一些变量的变化较小时,主成分分析由潜在的应用价值。

  可以证明变量的正交变换 $\boldsymbol X = P \boldsymbol Y$ 不改变数据的总方差(左乘 $P$ 不改变向量的长度或它们之间的夹角)。这说明,如果 $S = PDP^\mathsf{T}$,那么

\begin{equation}
\{x_1, \cdots, x_p 的总方差\} = \{y_1, \cdots, y_p 的总方差\} = \mathrm{tr}(D) = \lambda_1 + \cdots + \lambda_p
\end{equation}

$y_j$ 的方差是 $\lambda_j$,商 $\lambda_j / \mathrm{tr}(D)$ 度量总体方差成分中被 $y_j$ “说明”或“记录”的比例。

4. 主成分变量的特征

  如果 $y_1, \cdots, y_p$ 是来自一个 $P \times N$ 观测矩阵的主成分分析,那么 $y_1$ 的方差在下列意义下可能尽量大:如果 $\boldsymbol u$ 是任意一个单位向量且 $y = \boldsymbol u^\mathsf{T} \boldsymbol X$,那么当 $\boldsymbol X$ 在原来数据 $\boldsymbol X_1, \cdots, \boldsymbol X_N$ 范围变化时,$y$ 的方差值为 $\boldsymbol u^\mathsf{T} S \boldsymbol u$。由前文定理 8,对于所有单位向量 $\boldsymbol u$,$\boldsymbol u^\mathsf{T} S \boldsymbol u$ 的最大值就是 $S$ 的最大特征值 $\lambda_1$,且这个方差可以在 $\boldsymbol u$ 等于对应特征向量 $\boldsymbol u_1$ 处达到。类似地,定理 8 表明 $y_2$ 的方差最大值可能出现在与 $y_1$ 无关的所有变量 $y = \boldsymbol u^\mathsf{T} \boldsymbol X$ 中。同样,$y_3$ 的方差最大值可能出现在与 $y_1$ 和 $y_2$ 都无关的所有变量中,以此类推。