Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

[ML Notes] 线性回归:正交投影

  考虑前文所述的线性模型

f(X)=Xw

理想的 w 应使得 Xw=y,但这样的解并不一定存在。此时最好的选择是寻找一个 w,使得 Xw 尽可能接近 yyXw 之间的距离 ||\boldsymbol{y} – X \boldsymbol{w}|| 越小,则近似程度越好。

  注意到向量 X \boldsymbol{w} 必然属于列空间 \mathrm{Col}\;X,我们希望 X \boldsymbol{w}\mathrm{Col}\;X 中最接近 \boldsymbol{y} 的点,根据最佳逼近定理,该点应为 \boldsymbol{y}\mathrm{Col}\;X 上的投影,即

\hat{\boldsymbol{y}} = \mathrm{Proj}_{\mathrm{Col}\;X} \boldsymbol{y} \tag{2}

由于 \hat{\boldsymbol{y}} 属于 X 的列空间,故关于 \boldsymbol{w} 的方程 X \boldsymbol{w} = \hat{\boldsymbol{y}} 是相容的,且存在一个属于 \mathbb{R}^n\hat{\boldsymbol{w}},使得

X \hat{\boldsymbol{w}} = \hat{\boldsymbol{y}} \tag{3}

  若 \hat{\boldsymbol{w}} 满足 X \hat{\boldsymbol{w}} = \hat{\boldsymbol{y}},根据正交分解定理,对于 \boldsymbol{y}\mathrm{Col}\;X 上的投影 \hat{\boldsymbol{y}},有 \boldsymbol{y} – \hat{\boldsymbol{y}}\mathrm{Col}\;X 正交,即 \boldsymbol{y} – X \hat{\boldsymbol{w}} 正交于 X 的每一列。对于 X 的任意列 \boldsymbol{x},有 \boldsymbol{x} \cdot (\boldsymbol{y} – X \hat{\boldsymbol{w}}) = 0\boldsymbol{x}^\mathrm{T} (\boldsymbol{y} – X \hat{\boldsymbol{w}}) = 0,因此有

X^\mathrm{T}(\boldsymbol{y} – X \hat{\boldsymbol{w}}) = \boldsymbol{0} \tag{4}

故有

X^\mathrm{T}\boldsymbol{y} – X^\mathrm{T}X\hat{\boldsymbol{w}} = 0

X^\mathrm{T}X\hat{\boldsymbol{w}} = X^\mathrm{T}\boldsymbol{y} \tag{5}

上式称为 X \boldsymbol{w} = \boldsymbol{y} 的法方程。当 X^\mathrm{T}X 可逆,最小二乘解为

\hat{\boldsymbol{w}} = (X^\mathrm{T}X)^{-1}X^\mathrm{T}\boldsymbol{y} \tag{6}

\boldsymbol{y}X\hat{\boldsymbol{w}} 的距离称为最小二乘误差。式 (6) 得到的结果与前文相同。


  最佳逼近定理 假设 \mathcal{W}\mathbb{R}^n 的一个子空间,\boldsymbol{y}\mathbb{R}^n 中的任意向量,\hat{\boldsymbol{y}}\boldsymbol{y}\mathcal{W} 上的正交投影,那么 \hat{\boldsymbol{y}}\mathcal{W} 中最接近 \boldsymbol{y} 的点,也就是

||\boldsymbol{y} – \hat{\boldsymbol{y}}|| < ||\boldsymbol{y} – \boldsymbol{v}||

对所有属于 \mathcal{W} 又异于 \hat{\boldsymbol{y}}\boldsymbol{v} 成立。

  正交分解定理 若 R\mathbb{R}^n 的一个子空间,那么 \mathbb{R}^n 中每一个向量 \boldsymbol y 可以唯一表示为

\boldsymbol y = \hat{\boldsymbol y} + \boldsymbol z

其中 \hat{\boldsymbol y} 属于 W\boldsymbol z 属于 W^\perp。实际上,如果 \{\boldsymbol u_1, \cdots, \boldsymbol u_p\}W 的任意正交基,那么

\hat{\boldsymbol y} = \frac{\boldsymbol y \cdot \boldsymbol u_1}{\boldsymbol u_1 \cdot \boldsymbol u_1} \boldsymbol u_1 + \cdots + \frac{\boldsymbol y \cdot \boldsymbol u_p}{\boldsymbol u_p \cdot \boldsymbol u_p} \boldsymbol u_p

\boldsymbol z = \boldsymbol y – \hat{\boldsymbol y}