线性代数 Cheat Sheet 6-8:內积空间的应用

1. 加权最小二乘法

  
  设向量 $\boldsymbol y$ 的 $n$ 次观测值为 $y_1, \cdots, y_n$,且假设我们希望用属于 $\mathbb{R}^n$ 的特定子空间的一个向量 $\hat{\boldsymbol y}$ 逼近 $\boldsymbol y$。记 $\hat{\boldsymbol y}$ 的元素为 $\hat y_1, \cdots, \hat y_n$,那么误差的平方和或 $SS(E)$ 用 $\hat{\boldsymbol y}$ 逼近 $\boldsymbol y$ 后为

\begin{equation}
SS(E) = (y_1 – \hat y_1)^2 + \cdots + (y_n – \hat y_n)^2 \tag{1}
\end{equation}

利用 $\mathbb{R}^n$ 的标准长度的写法,上式可以简记为 $\lVert \boldsymbol y – \hat{\boldsymbol y} \rVert^2$。

  现在,假设测量时 $\boldsymbol y$ 的各个元素的可靠性不同,那么可靠性就变成 $(1)$ 式中平方误差的适当权值,较可靠的测量应赋予更重要的作用。如果权值记为 $w_1^2, \cdots, w_n^2$,那么加权的误差平方和是

\begin{equation}
加权 SS(E) = w_1^2(y_1 – \hat y_1)^2 + \cdots + w_n^2(y_n – \hat y_n)^2 \tag{2}
\end{equation}

这是 $(\boldsymbol y – \hat{\boldsymbol y})$ 长度的平方,这里的“长度”为內积

\begin{equation}
\langle\boldsymbol x, \boldsymbol y\rangle = w_1^2(x_1 y_1) + \cdots + w_n^2(x_n y_n)
\end{equation}

  有时,可以方便地将这种加权最小二乘问题变换为等价的普通最小二乘问题。设 $W$ 是对角线上是正数 $w_1, \cdots, w_n$ 的对角矩阵,可得

\begin{equation}
W \boldsymbol y = \begin{bmatrix}
w_1 & 0 & \cdots & 0 \\
0 & w_2 & \cdots & 0 \\
\vdots & & \ddots &\vdots \\
0 & 0 & \cdots & w_n
\end{bmatrix}
\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} =
\begin{bmatrix} w_1 y_1 \\ w_2 y_2 \\ \vdots \\ w_n y_n \end{bmatrix}
\end{equation}

$W \hat{\boldsymbol y}$ 有类似的表达式,可以看到 $(2)$ 式的第 $j$ 项可写成

\begin{equation}
w_j^2(y_j – \hat y_j)^2 = (w_j y_j – w_j \hat y_j)^2
\end{equation}

从而 $(2)$ 式中加权的 $SS(E)$ 就是 $\mathbb{R}^n$ 中 $W \boldsymbol y – W \hat{\boldsymbol y}$ 的普通长度的平方,它可以写成 $\lVert W \boldsymbol y – W \hat{\boldsymbol y} \rVert^2$。

  现在假设向量 $\hat{\boldsymbol y}$ 的逼近是由矩阵 $A$ 的列构成($\hat{\boldsymbol y}$ 可以写成 $A \boldsymbol x$,所以 $\hat{\boldsymbol y}$ 属于 $A$ 的列空间),我们寻找一个 $\hat{\boldsymbol x}$,使得 $A \hat{\boldsymbol x} = \hat{\boldsymbol y}$ 尽可能接近 $\boldsymbol y$。然而,逼近的度量是加权误差

\begin{equation}
\lVert W \boldsymbol y – W \hat{\boldsymbol y} \rVert = \lVert W \boldsymbol y – WA\hat{\boldsymbol x} \rVert
\end{equation}

这样 $\hat{\boldsymbol x}$ 是方程

\begin{equation}
WA\boldsymbol x = W \boldsymbol y
\end{equation}

的(普通)最小二乘解,此最小二乘解的法方程是

\begin{equation}
(WA)^\mathsf{T}WA\boldsymbol x = (WA)^\mathsf{T}W\boldsymbol y
\end{equation}

2. 数据趋势分析

  设特定函数 $f$ 仅知道在点 $t_0, \cdots, t_n$ 处的值,如果数据 $f(t_0), \cdots, f(t_n)$ 中有一个“线性趋势”,那么我们期望用形如 $\beta_0 + \beta_1 t$ 的函数得到 $f$ 的近似值。如果数据有一个“二次趋势”,我们会尝试用形如 $\beta_0 + \beta_1 t + \beta_2 t^2$ 的函数。

  在某些统计问题中,将线性趋势从二次趋势中分离出来是非常重要的。如果一个函数由形如 $y = beta_0 + \beta_1 t + \beta_2 t^2$ 的函数来逼近,那么系数 $\beta_2$ 也许不能给出期望的二次趋势的数据,因为在统计学意义下,它和其他 $\beta_i$ 相关。为进行数据的趋势分析,我们引入空间 $\mathbb{P}^n$ 上的內积。对属于 $\mathbb{P}^n$ 的 $p, q$,定义

\begin{equation}
\langle\boldsymbol p, \boldsymbol q\rangle = p(t_0)q(t_0) + \cdots + p(t_n)q(t_n)
\end{equation}

实际上,统计学家很少需要考虑阶数高于三次或四次的趋势。所以,假设 $p_0, p_1, p_2, p_3$ 表示 $\mathbb{P}^n$ 的子空间 $\mathbb{P}^3$ 的正交基,它可以将多项式 $1, t, t^2, t^3$ 应用格拉姆-施密特方法得到。存在一个属于 $\mathbb{P}^n$ 的多项式 $g$,它在 $t_0, \cdots, t_n$ 的值与未知函数 $f$ 一致。令 $\hat g$ 是 $g$ 在 $\mathbb{P}^3$ 上的正交投影,如

\begin{equation}
\hat g = c_0p_0 + c_1p_1 + c_2p_2 + c_3p_3
\end{equation}

那么 $\hat g$ 称为数据的立方趋势函数,$c_0, \cdots, c_3$ 称为数据的趋势系数。其中 $c_1$ 表示线性趋势,$c_2$ 表示二次趋势,$c_3$ 表示立方趋势。结果是如果数据具有某些性质,则这些系数相互独立。

  由于 $p_0, \cdots, p_3$ 是正交的(注意 $c_i = \langle g, p_1 \rangle / \langle p_i, p_i\rangle$),故趋势系数可逐次计算且相互独立。如果我们仅需要二次趋势,则可以忽略 $p_3$ 和 $c_3$。

3. 傅里叶级数

  连续函数常用正弦和余弦函数的线性组合来逼近。为简单起见,考虑 $0 \leq t \leq 2\pi$ 上的函数,任何 $C[0, 2\pi]$ 上的函数可以由下列形式的函数任意逼近:

\begin{equation}
\frac{a_0}{2} + a_1 \cos t + \cdots + a_n \cos nt + b_1 \sin t + \cdots + b_n \sin _nt \tag{3}
\end{equation}

如果自然数 $n$ 足够大,$(3)$ 中的函数称为三角多项式。如果 $a_n$ 和 $b_n$ 不同时为零,则多项式称为是 $n$ 阶的。三角多项式和 $C[0, 2\pi]$ 上的其他函数之间的联系依赖于下列事实:对任何 $n \geq 1$,集合

\begin{equation}
\{1, \cos t, \cos 2t, \cdots, \cos nt, \sin t, \sin 2t, \cdots, \sin nt\} \tag{4}
\end{equation}

关于如下定义的內积是正交的:

\begin{equation}
\langle f, g \rangle = \int_0^{2\pi} f(t)g(t) \mathrm{d}t
\end{equation}

  设 $W$ 是 $C[0, 2\pi]$ 中的子空间,且由 $(4)$ 中的函数所生成。对 $C[0, 2\pi]$ 中的函数 $f$,$W$ 中用函数对 $f$ 的最佳逼近称为 $f$ 在 $[0, 2\pi]$ 上的 $n$ 阶傅里叶逼近。由于 $(4)$ 中的函数是正交的,因此给出的最佳逼近是 $W$ 上的正交投影。在这种情形下,$(3)$ 式中的系数 $a_k$ 和 $b_k$ 称为 $f$ 的傅里叶系数。标准的正交投影公式表明

\begin{equation}
a_k = \frac{\langle f, \cos kt \rangle}{\langle \cos kt, \cos kt \rangle}, \; b_k = \frac{\langle f, \sin kt \rangle}{\langle \sin kt, \sin kt \rangle}, \; k \geq 1
\end{equation}

由 $\langle \cos kt, \cos kt \rangle = \pi$ 和 $\langle \sin kt, \sin kt \rangle = \pi$,得

\begin{equation}
a_k = \frac{1}{\pi} \int_0^{2\pi} f(t) \cos kt \mathrm{d}t, \; b_k = \frac{1}{\pi} \int_0^{2\pi} f(t) \sin kt \mathrm{d}t \tag{5}
\end{equation}

正交投影中的(常数)函数 $1$ 的系数是

\begin{equation}
\frac{\langle f, 1 \rangle}{\langle 1, 1 \rangle} = \frac{1}{2\pi} \int_0^{2\pi} f(t) \cdot 1 \mathrm{d}t = \frac{1}{2}\big[\frac{1}{\pi} \int_0^{2\pi} f(t) \cos(0 \cdot t) \mathrm{d}t\big] = \frac{a_0}{2}
\end{equation}

其中 $a_0$ 是 $(5)$ 式中 $k = 0$ 的情形,这就解释了 $(3)$ 中的常数项为什么写成 $\frac{a_0}{2}$。

  函数 $f$ 与傅里叶逼近之差的范数称为逼近的均方误差(术语“均”是相对于积分定义中的范数而言的)。可以证明,当傅里叶级数的阶数增加时,均方误差趋于零。由于这个原因,它常常写成

\begin{equation}
f(t) = \frac{a_0}{2} + \sum_{m = 1}^{\infty}(a_m \cos mt + b_n \sin mt)
\end{equation}

$f(t)$ 的这个表达式称为 $f$ 在 $[0, 2\pi]$ 上的傅里叶级数。例如,项 $a_m \cos mt$ 是 $f$ 在由 $\cos mt$ 生成的一维子空间上的投影。