[DL Note] 线性代数:特征分解

1. 特征向量

  $\boldsymbol A$ 为 $n \times n$ 矩阵,$\boldsymbol x$ 为非零向量,若存在数 $\lambda$ 使 $\boldsymbol A \boldsymbol x = \lambda \boldsymbol x$ 有非平凡解 $\boldsymbol x$,则称 $\lambda$ 为 $\boldsymbol A$ 的特征值(eigenvalue),$\boldsymbol x$ 称为对应于 $\lambda$ 的特征向量(eigenvector)。

  $\lambda$ 是 $\boldsymbol A$ 的特征值当且仅当方程

\begin{equation}
(\boldsymbol A – \lambda I) \boldsymbol x = \boldsymbol 0 \tag{1}
\end{equation}

有非平凡解。方程 $(1)$ 的所有解的集合就是矩阵 $\boldsymbol A – \lambda I$ 的零空间,因此该集合是 $\mathbb{R}^n$ 的子空间,称为 $\boldsymbol A$ 的对应于 $\lambda$ 的特征空间。特征空间由零向量和所有对应于 $\lambda$ 的特征向量组成。

  三角矩阵(包含上三角和下三角矩阵)的主对角线的元素是其特征值。

  如果一个矩阵 $\boldsymbol A$ 有零特征值,则方程 $\boldsymbol A \boldsymbol x = 0 \boldsymbol x$ 有非平凡解,该方程等价于 $\boldsymbol A \boldsymbol x = \boldsymbol 0$,而 $\boldsymbol A \boldsymbol x = \boldsymbol 0$ 有非平凡解的充要条件是 $\boldsymbol A$ 是不可逆的。因此,$\boldsymbol A$ 有零特征值的充要条件是 $\boldsymbol A$ 不可逆。$0$ 是 $\boldsymbol A$ 的特征值当且仅当 $\boldsymbol A$ 不可逆。

  $\lambda_1, \cdots, \lambda_r$ 是 $n \times n$ 矩阵 $\boldsymbol A$ 相异的特征值,$\boldsymbol v_1, \cdots, \boldsymbol v_r$ 是与 $\lambda_1, \cdots, \lambda_r$ 对应的特征向量,那么向量集合 $\{\boldsymbol v_1, \cdots, \boldsymbol v_r\}$ 线性无关。

  如果 $\boldsymbol v$ 是 $\boldsymbol A$ 的特征向量,那么任何缩放后的向量 $s \boldsymbol v$($s \in \mathbb{R}$ 且 $s \neq 0$)也是 $\boldsymbol A$ 的特征向量,$s \boldsymbol v$ 与 $\boldsymbol v$ 有相同的特征值,因此通常只考虑单位特征向量。

2. 谱定理

  矩阵 $\boldsymbol A$ 的特征值的集合有时称为 $\boldsymbol A$ 的。一个对称的 $n \times n$ 矩阵 $\boldsymbol A$ 具有下述性质:

  1. $A$ 有 $n$ 个特征值,包含重复的特征值。
  2. 对每一个特征值 $\lambda$,对应的特征空间的维数等于 $\lambda$ 作为特征方程的根的重数。
  3. 特征空间相互正交,这种正交性是在特征向量对应于不同特征值的意义下成立的。
  4. $A$ 可正交对角化。

3. 特征分解

  假设 $\boldsymbol A = \boldsymbol P\boldsymbol D\boldsymbol P^{-1}$,其中 $\boldsymbol P$ 的列是 $\boldsymbol A$ 的单位正交特征向量 $\boldsymbol u_1, \cdots, \boldsymbol u_n$,是一个正交矩阵;相应的特征值 $\lambda_1, \cdots, \lambda_n$ 属于对角矩阵 $\boldsymbol D$,由 $\boldsymbol P^{-1} = \boldsymbol P^\mathsf{T}$,有

\begin{align}
\boldsymbol A &= \boldsymbol P\boldsymbol D\boldsymbol P^\mathsf{T} = \begin{bmatrix} \boldsymbol u_1 & \cdots & \boldsymbol u_n \end{bmatrix}
\begin{bmatrix} \lambda_1 & & 0 \\ & \ddots & \\ 0 & & \lambda_n \end{bmatrix}
\begin{bmatrix} \boldsymbol u_1^\mathsf{T} \\ \vdots \\ \boldsymbol u_n^\mathsf{T} \end{bmatrix} \\
&= \begin{bmatrix} \lambda_1\boldsymbol u_1 & \cdots & \lambda_n\boldsymbol u_n \end{bmatrix}
\begin{bmatrix} \boldsymbol u_1^\mathsf{T} \\ \vdots \\ \boldsymbol u_n^\mathsf{T} \end{bmatrix} \tag{2}
\end{align}

利用乘积的行列式展开式,可以得到

\begin{equation}
\boldsymbol A = \lambda_1 \boldsymbol u_1 \boldsymbol u_1^\mathsf{T} + \lambda_2 \boldsymbol u_2 \boldsymbol u_2^\mathsf{T} +\cdots + \lambda_n \boldsymbol u_n \boldsymbol u_n^\mathsf{T} \tag{3}
\end{equation}

由于它将 $\boldsymbol A$ 分解为由 $\boldsymbol A$ 的谱(特征值)确定的小块,因此这个 $A$ 的表示就称为 $A$ 的谱分解(spectral decomposition),也称为特征分解(eigendecomposition)。式 $(3)$ 中的每一项都是一个秩为 $1$ 的 $n \times n$ 矩阵。例如,$\lambda_1 \boldsymbol u_1 \boldsymbol u_1^\mathsf{T}$ 的每一列都是 $\boldsymbol u_1$ 的倍数。

  并不是每个矩阵都能有特征分解;对于每个实对称矩阵,都可以分解为式 $(2)$ 的形式,但分解可能不唯一。特征分解唯一当且仅当所有的特征值都是唯一的。如果两个或多个特征向量有相同的特征值,则在由这些特征向量生成的子空间中,任意一组正交向量都是该特征值对应的特征向量,从而构成一种正交分解。

  正交分解可以提供很多关于矩阵的信息。矩阵是奇异的当且仅当含有零特征值。

4. 二次型

  $\mathbb{R}^n$ 上的一个二次型是一个定义在 $\mathbb{R}^n$ 上的函数,它在向量 $\boldsymbol x$ 处的值可由表达式 $Q(\boldsymbol x) =
\boldsymbol x^\mathsf{T} A \boldsymbol x$ 计算,其中 $A$ 是一个 $n \times n$ 矩阵。矩阵 $A$ 称为关于二次型的矩阵

  实矩阵的特征分解可以用于优化二次方程 $Q(\boldsymbol x) = \boldsymbol x^\mathsf{T} A \boldsymbol x$,其中限制 $\Vert \boldsymbol x \Vert_2 = 1$。当 $\boldsymbol x$ 等于 $\boldsymbol A$ 的某个特征向量时,$f(\boldsymbol x)$ 为对应的特征值。在限制条件下,函数 $Qf$ 的最大值是最大特征值,最小值是最小特征值。

  定义一个二次型 $Q$ 是:

  • 正定(positive definite)的,如果对所有 $\boldsymbol x \neq 0$,有 $Q(\boldsymbol x) > 0$。
  • 负定(negative definite)的,如果对所有 $\boldsymbol x \neq 0$,有 $Q(\boldsymbol x) < 0$。
  • 不定的,如果 $Q(\boldsymbol x)$ 既有正值又有负值。

此外,对所有 $\boldsymbol x$,如果 $Q(\boldsymbol x) \geq 0$,则称 $Q$ 是半正定(positive semidefinite)的;如果 $Q(\boldsymbol x) \leq 0$,则称 $Q$ 是半负定(negative semidefinite)的。

  设 $A$ 是 $n \times n$ 对称矩阵,那么一个二次型 $\boldsymbol x^\mathsf{T} A \boldsymbol x$ 是:

  • 正定的,当且仅当 $A$ 的所有特征值是正数。
  • 负定的,当且仅当 $A$ 的所有特征值是负数。
  • 不定的,当且仅当 $A$ 既有正特征值,又有负特征值。

  利用二次型的分类,相应的得到矩阵的形式分类。所有特征值都是正数的矩阵称为正定矩阵,所有特征值都是负数的矩阵称为负定矩阵,所有特征值都是非负的矩阵称为半正定矩阵,所有特征值都是非正的矩阵称为半负定矩阵。

  半正定矩阵保证对于 $\forall \boldsymbol x$,有 $\boldsymbol x^\mathsf{T} \boldsymbol A \boldsymbol x \geq 0$。正定矩阵保证当 $\boldsymbol x^\mathsf{T} \boldsymbol A \boldsymbol x = 0$ 时,有 $\boldsymbol x = 0$。