线性代数 Cheat Sheet 7-3:条件优化

  工程中常常需要寻找一些特定集合内的 $\boldsymbol x$ 值,使得二次型 $Q(\boldsymbol x)$ 取得最大值或最小值。具有代表性的是,这类问题可化为 $\boldsymbol x$ 在一组单位向量中的变量的优化问题。

  $\mathbb{R}^n$ 中的一个单位向量 $\boldsymbol x$ 可用以下几种等价形式来描述:

\begin{equation}
\lVert \boldsymbol x \rVert = 1, \; \lVert \boldsymbol x \rVert^2 = 1, \; \boldsymbol x^\mathsf{T} \boldsymbol x = 1
\end{equation}

\begin{equation}
x_1^2 + x_2^2 + \cdots + x_n^2 = 1 \tag{1}
\end{equation}

在应用中经常使用 $\boldsymbol x^\mathsf{T} \boldsymbol x = 1$ 的展开式 $(1)$。

  当一个二次型没有交叉项乘积时,可以很容易得到在 $\boldsymbol x^\mathsf{T} \boldsymbol x = 1$ 下的最大值和最小值。

  可以证明,对任何对称矩阵 $A$,在 $\lVert \boldsymbol x \rVert = 1$ 条件下,$\boldsymbol x^\mathsf{T} A \boldsymbol x$ 所有可能值的集合是闭区间。分别用 $m$ 和 $M$ 表示区间的左端点和右端点,即取

\begin{equation}
m = \min\{\boldsymbol x^\mathsf{T} A \boldsymbol x: \lVert \boldsymbol x \rVert = 1\}, \;
M = \max\{\boldsymbol x^\mathsf{T} A \boldsymbol x: \lVert \boldsymbol x \rVert = 1\} \tag{2}
\end{equation}

  如果 $\lambda$ 是一个特征值,那么 $m \leq \lambda \leq M$,$m$ 和 $M$ 本身也是特征值。

  定理 6 设 $A$ 是对称矩阵,且 $m$ 和 $M$ 的定义如 $(2)$ 式所示,那么 $M$ 是 $A$ 的最大特征值 $\lambda_1$,$m$ 是 $A$ 的最小特征值。如果 $\boldsymbol x$ 是对应于 $M$ 的单位特征向量 $\boldsymbol u_1$,那么 $\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的值等于 $M$。如果 $\boldsymbol x$ 是对应于 $m$ 的单位特征向量,那么 $\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的值等于 $m$。

  定理 7 设 $A, \lambda_1, \boldsymbol u_1$ 的定义如定理 6 所示。在如下限制条件下:

\begin{equation}
\boldsymbol x^\mathsf{T} \boldsymbol x = 1, \; \boldsymbol x^\mathsf{T} \boldsymbol u_1 = 0
\end{equation}

$\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的最大值是第二大特征值 $\lambda_2$,且这个最大值可以在 $\boldsymbol x$ 是对应于 $\lambda_2$ 的特征向量 $\boldsymbol u_2$ 处达到。

  限制条件 $\boldsymbol x^\mathsf{T} \boldsymbol u_1 = 0$ 意味取到最大值的解 $\boldsymbol x$ 要与最大特征值对应的特征向量 $\boldsymbol u_1$ 正交。假设在 $\mathbb{R}^3$ 中,有 $\boldsymbol u_1 = (1, 0, 0)$,则为了满足此限制条件, $\boldsymbol x$ 的第一个元素要为 $0$,即 $x_1 = 0$。

  定理 8 设 $A$ 是一个 $n \times n$ 的对称矩阵,其正交对角化为 $A = PDP^{-1}$,将对角矩阵 $D$ 上的元素重新排列,使得 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$,且 $P$ 的列是其对应的单位特征向量 $\boldsymbol u_1, \cdots, \boldsymbol u_n$,那么对 $k = 2, \cdots, n$,在以下限制条件下:

\begin{equation}
\boldsymbol x^\mathsf{T} \boldsymbol x = 1, \; \boldsymbol x^\mathsf{T} \boldsymbol u_1 = 0, \; \cdots, \; \boldsymbol x^\mathsf{T} \boldsymbol u_{k-1} = 0
\end{equation}

$\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的最大值是特征值 $\lambda_k$,且这个最大值在 $\boldsymbol x = \boldsymbol u_k$ 处可以达到。