[ML Notes] 线性回归:正交投影
考虑前文所述的线性模型
$$
\boldsymbol{f}(X) = X \boldsymbol{w} \tag{1}
$$
理想的 $\boldsymbol{w}$ 应使得 $X \boldsymbol{w} = \boldsymbol{y}$,但这样的解并不一定存在。此时最好的选择是寻找一个 $\boldsymbol{w}$,使得 $X \boldsymbol{w}$ 尽可能接近 $\boldsymbol{y}$ 。$\boldsymbol{y}$ 与 $X \boldsymbol{w}$ 之间的距离 $||\boldsymbol{y} – X \boldsymbol{w}||$ 越小,则近似程度越好。
注意到向量 $X \boldsymbol{w}$ 必然属于列空间 $\mathrm{Col}\;X$,我们希望 $X \boldsymbol{w}$ 是 $\mathrm{Col}\;X$ 中最接近 $\boldsymbol{y}$ 的点,根据最佳逼近定理,该点应为 $\boldsymbol{y}$ 在 $\mathrm{Col}\;X$ 上的投影,即
$$
\hat{\boldsymbol{y}} = \mathrm{Proj}_{\mathrm{Col}\;X} \boldsymbol{y} \tag{2}
$$
由于 $\hat{\boldsymbol{y}}$ 属于 $X$ 的列空间,故关于 $\boldsymbol{w}$ 的方程 $X \boldsymbol{w} = \hat{\boldsymbol{y}}$ 是相容的,且存在一个属于 $\mathbb{R}^n$ 的 $\hat{\boldsymbol{w}}$,使得
$$
X \hat{\boldsymbol{w}} = \hat{\boldsymbol{y}} \tag{3}
$$
若 $\hat{\boldsymbol{w}}$ 满足 $X \hat{\boldsymbol{w}} = \hat{\boldsymbol{y}}$,根据正交分解定理,对于 $\boldsymbol{y}$ 在 $\mathrm{Col}\;X$ 上的投影 $\hat{\boldsymbol{y}}$,有 $\boldsymbol{y} – \hat{\boldsymbol{y}}$ 与 $\mathrm{Col}\;X$ 正交,即 $\boldsymbol{y} – X \hat{\boldsymbol{w}}$ 正交于 $X$ 的每一列。对于 $X$ 的任意列 $\boldsymbol{x}$,有 $\boldsymbol{x} \cdot (\boldsymbol{y} – X \hat{\boldsymbol{w}}) = 0$ 即 $\boldsymbol{x}^\mathrm{T} (\boldsymbol{y} – X \hat{\boldsymbol{w}}) = 0$,因此有
$$
X^\mathrm{T}(\boldsymbol{y} – X \hat{\boldsymbol{w}}) = \boldsymbol{0} \tag{4}
$$
故有
$$
X^\mathrm{T}\boldsymbol{y} – X^\mathrm{T}X\hat{\boldsymbol{w}} = 0
$$
$$
X^\mathrm{T}X\hat{\boldsymbol{w}} = X^\mathrm{T}\boldsymbol{y} \tag{5}
$$
上式称为 $X \boldsymbol{w} = \boldsymbol{y}$ 的法方程。当 $X^\mathrm{T}X$ 可逆,最小二乘解为
$$
\hat{\boldsymbol{w}} = (X^\mathrm{T}X)^{-1}X^\mathrm{T}\boldsymbol{y} \tag{6}
$$
$\boldsymbol{y}$ 到 $X\hat{\boldsymbol{w}}$ 的距离称为最小二乘误差。式 $(6)$ 得到的结果与前文相同。
最佳逼近定理 假设 $\mathcal{W}$ 是 $\mathbb{R}^n$ 的一个子空间,$\boldsymbol{y}$ 是 $\mathbb{R}^n$ 中的任意向量,$\hat{\boldsymbol{y}}$ 是 $\boldsymbol{y}$ 在 $\mathcal{W}$ 上的正交投影,那么 $\hat{\boldsymbol{y}}$ 是 $\mathcal{W}$ 中最接近 $\boldsymbol{y}$ 的点,也就是
$$
||\boldsymbol{y} – \hat{\boldsymbol{y}}|| < ||\boldsymbol{y} – \boldsymbol{v}||
$$
对所有属于 $\mathcal{W}$ 又异于 $\hat{\boldsymbol{y}}$ 的 $\boldsymbol{v}$ 成立。
正交分解定理 若 $R$ 是 $\mathbb{R}^n$ 的一个子空间,那么 $\mathbb{R}^n$ 中每一个向量 $\boldsymbol y$ 可以唯一表示为
$$
\boldsymbol y = \hat{\boldsymbol y} + \boldsymbol z
$$
其中 $\hat{\boldsymbol y}$ 属于 $W$ 而 $\boldsymbol z$ 属于 $W^\perp$。实际上,如果 $\{\boldsymbol u_1, \cdots, \boldsymbol u_p\}$ 是 $W$ 的任意正交基,那么
$$
\hat{\boldsymbol y} = \frac{\boldsymbol y \cdot \boldsymbol u_1}{\boldsymbol u_1 \cdot \boldsymbol u_1} \boldsymbol u_1 + \cdots + \frac{\boldsymbol y \cdot \boldsymbol u_p}{\boldsymbol u_p \cdot \boldsymbol u_p} \boldsymbol u_p
$$
且 $\boldsymbol z = \boldsymbol y – \hat{\boldsymbol y}$。