Processing math: 2%

线性代数 Cheat Sheet 7-5:图像处理和统计学中的应用

  主成分分析用于分析多维数据,如研究生产塑料材料的化学过程时,为了监控生产过程,在材料生产过程中取得 300 个样本,且每一个样本经过 8 个一组的测试,实验报告是一个属于 R8 的向量,这类向量集合形成一个 8×300 的矩阵,称为观测矩阵

1. 均值和协方差

  令 \begin{bmatrix} \boldsymbol X_1 & \cdots & \boldsymbol X_N \end{bmatrix} 是如上描述的一个 p \times N 观测矩阵。观测向量 \boldsymbol X_1 , \cdots, \boldsymbol X_N样本均值 M 由下式给出:

\begin{equation} M = \frac{1}{N}(\boldsymbol X_1 + \cdots + \boldsymbol X_N) \end{equation}

样本均值是观测数据的“中心”。对 k = 1, \cdots, N,令

\begin{equation} \hat{\boldsymbol X}_k = \boldsymbol X_k – M \end{equation}

p \times N 矩阵的列

\begin{equation} B = \begin{bmatrix} \hat{\boldsymbol X}_1 & \hat{\boldsymbol X}_2 & \cdots & \hat{\boldsymbol X}_N \end{bmatrix} \end{equation}

具有零样本均值,这样的 B 称为平均偏差形式

  (样本)协方差矩阵是一个 p \times p 矩阵 S,其定义为

\begin{equation} S = \frac{1}{N-1}BB^\mathsf{T} \end{equation}

由于任何具有 BB^\mathsf{T} 形式的矩阵是半正定的,所以 S 也是半正定的。

  为讨论 S = [s_{ij}] 中的元素,令 X 表示在观测向量集合中变化的向量,用 x_1, \cdots, x_p 表示 X 中的元素,那么例如 x_i 是一个在 \boldsymbol X_1, \cdots, \boldsymbol X_n 各项量第一个元素所构成的集合中变化的数值。对 j = 1, \cdots, pS 中的对角元素 s_{jj} 称为 x_j方差x_j 的方差用来度量 x_j 值的分散性。

  数据的总方差是指 S 中对角线上方差的总和。一般地,一个方阵 S 中对角线元素之和称为矩阵的,记作 \mathrm{tr}(S)。这样

\begin{equation} \{总方差\} = \mathrm{tr}(S) \end{equation}

  S 中的元素 s_{ij}i \neq j)称为 x_ix_j协方差。如果 x_ix_j 的协方差为零,则称 x_ix_j无关的。如果大部分或所有变量 x_1, \cdots, x_p 是无关的,即当 \boldsymbol X_1 , \cdots, \boldsymbol X_N 的协方差矩阵是对角阵或几乎是对角阵时,则 \boldsymbol X_1 , \cdots, \boldsymbol X_N 中多数变量的数据分析可以简化。

2. 主成分分析

  为简单起见,假设矩阵 \begin{bmatrix} \boldsymbol X_1 & \cdots & \boldsymbol X_N \end{bmatrix} 已经是平均偏差形式。主成分分析的目标是找到一个 p \times p 矩阵 P = \begin{bmatrix} \boldsymbol u_1 & \cdots & \boldsymbol u_p \end{bmatrix},确定一个变量代换 \boldsymbol X = P \boldsymbol Y,或

\begin{equation} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_p\end{bmatrix} = \begin{bmatrix} \boldsymbol u_1 & \boldsymbol u_2 & \cdots & \boldsymbol u_p \end{bmatrix} \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_p\end{bmatrix} \end{equation}

并具有新的变量 y_1, \cdots, y_p 两两无关的性质,且整理后的方差具有递减顺序。

  变量的正交变换 \boldsymbol X = P \boldsymbol Y 说明,每一个观测向量 \boldsymbol X_k 得到了一个“新名称” \boldsymbol Y_k,使得 \boldsymbol X_k = P \boldsymbol Y_k。注意到 \boldsymbol Y_k\boldsymbol X_k 关于 P 的列的坐标向量,且对 k = 1, \cdots, N,有 \boldsymbol Y_k = P^{-1}\boldsymbol X_k = P^\mathsf{T} \boldsymbol X_k

  不难验证,对任何正交矩阵 P\boldsymbol Y_1, \cdots, \boldsymbol Y_N 的协方差是 P^\mathsf{T}SPS\boldsymbol X_1, \cdots, \boldsymbol X_N 的协方差矩阵)。于是,期望的正交矩阵 P 是一矩阵使得 P^\mathsf{T}SP 为对角矩阵(由 y_1, \cdots, y_p 两两无关,P^\mathsf{T}SP 非对角线元素为零)。设 D 是对角矩阵且 S 的特征值 \lambda_1, \cdots, \lambda_p 位于对角线上,重新整理使得 \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0,并令 P 是正交矩阵,它的列时对应单位特征向量 \boldsymbol u_1, \cdots, \boldsymbol u_p,那么 S = PDP^\mathsf{T}P^\mathsf{T}SP = D

  协方差矩阵 S 的单位特征向量 \boldsymbol u_1, \cdots, \boldsymbol u_p 称为(观测矩阵中的)数据的主成分第一主成分S 中最大特征值对应的特征向量。第二主成分S 中第二大特征值对应的特征向量。以此类推。

  第一主成分 \boldsymbol u_1 可用下列方式确定新变量 y_1,设 c_1, \cdots, c_p\boldsymbol u_1 中的元素,由于 \boldsymbol u_1^\mathsf{T}P^\mathsf{T} 的行,故方程 \boldsymbol Y = P^\mathsf{T} \boldsymbol X 表明

\begin{equation} y_1 = \boldsymbol u_1^\mathsf{T} \boldsymbol X = c_1 x_1 + c_2 x_2 + \cdots + c_p x_p \end{equation}

于是 y_1 是原变量 x_1, \cdots, x_p 的线性组合,并用特征向量 \boldsymbol u_1 中的元素作为权值。用同样的方式,\boldsymbol u_2 确定变量 y_2,以此类推。

3. 多维变量数据的降维

  对大多数数据的变化或动态范围,当新变量 y_1, \cdots, y_p 中的一些变量的变化较小时,主成分分析由潜在的应用价值。

  可以证明变量的正交变换 \boldsymbol X = P \boldsymbol Y 不改变数据的总方差(左乘 P 不改变向量的长度或它们之间的夹角)。这说明,如果 S = PDP^\mathsf{T},那么

\begin{equation} \{x_1, \cdots, x_p 的总方差\} = \{y_1, \cdots, y_p 的总方差\} = \mathrm{tr}(D) = \lambda_1 + \cdots + \lambda_p \end{equation}

y_j 的方差是 \lambda_j,商 \lambda_j / \mathrm{tr}(D) 度量总体方差成分中被 y_j “说明”或“记录”的比例。

4. 主成分变量的特征

  如果 y_1, \cdots, y_p 是来自一个 P \times N 观测矩阵的主成分分析,那么 y_1 的方差在下列意义下可能尽量大:如果 \boldsymbol u 是任意一个单位向量且 y = \boldsymbol u^\mathsf{T} \boldsymbol X,那么当 \boldsymbol X 在原来数据 \boldsymbol X_1, \cdots, \boldsymbol X_N 范围变化时,y 的方差值为 \boldsymbol u^\mathsf{T} S \boldsymbol u。由前文定理 8,对于所有单位向量 \boldsymbol u\boldsymbol u^\mathsf{T} S \boldsymbol u 的最大值就是 S 的最大特征值 \lambda_1,且这个方差可以在 \boldsymbol u 等于对应特征向量 \boldsymbol u_1 处达到。类似地,定理 8 表明 y_2 的方差最大值可能出现在与 y_1 无关的所有变量 y = \boldsymbol u^\mathsf{T} \boldsymbol X 中。同样,y_3 的方差最大值可能出现在与 y_1y_2 都无关的所有变量中,以此类推。