[ML Notes] 线性回归:正交投影
考虑前文所述的线性模型
f(X)=Xw
理想的 w 应使得 Xw=y,但这样的解并不一定存在。此时最好的选择是寻找一个 w,使得 Xw 尽可能接近 y 。y 与 Xw 之间的距离 ||\boldsymbol{y} – X \boldsymbol{w}|| 越小,则近似程度越好。
注意到向量 X \boldsymbol{w} 必然属于列空间 \mathrm{Col}\;X,我们希望 X \boldsymbol{w} 是 \mathrm{Col}\;X 中最接近 \boldsymbol{y} 的点,根据最佳逼近定理,该点应为 \boldsymbol{y} 在 \mathrm{Col}\;X 上的投影,即
\hat{\boldsymbol{y}} = \mathrm{Proj}_{\mathrm{Col}\;X} \boldsymbol{y} \tag{2}
由于 \hat{\boldsymbol{y}} 属于 X 的列空间,故关于 \boldsymbol{w} 的方程 X \boldsymbol{w} = \hat{\boldsymbol{y}} 是相容的,且存在一个属于 \mathbb{R}^n 的 \hat{\boldsymbol{w}},使得
X \hat{\boldsymbol{w}} = \hat{\boldsymbol{y}} \tag{3}
若 \hat{\boldsymbol{w}} 满足 X \hat{\boldsymbol{w}} = \hat{\boldsymbol{y}},根据正交分解定理,对于 \boldsymbol{y} 在 \mathrm{Col}\;X 上的投影 \hat{\boldsymbol{y}},有 \boldsymbol{y} – \hat{\boldsymbol{y}} 与 \mathrm{Col}\;X 正交,即 \boldsymbol{y} – X \hat{\boldsymbol{w}} 正交于 X 的每一列。对于 X 的任意列 \boldsymbol{x},有 \boldsymbol{x} \cdot (\boldsymbol{y} – X \hat{\boldsymbol{w}}) = 0 即 \boldsymbol{x}^\mathrm{T} (\boldsymbol{y} – X \hat{\boldsymbol{w}}) = 0,因此有
X^\mathrm{T}(\boldsymbol{y} – X \hat{\boldsymbol{w}}) = \boldsymbol{0} \tag{4}
故有
X^\mathrm{T}\boldsymbol{y} – X^\mathrm{T}X\hat{\boldsymbol{w}} = 0
X^\mathrm{T}X\hat{\boldsymbol{w}} = X^\mathrm{T}\boldsymbol{y} \tag{5}
上式称为 X \boldsymbol{w} = \boldsymbol{y} 的法方程。当 X^\mathrm{T}X 可逆,最小二乘解为
\hat{\boldsymbol{w}} = (X^\mathrm{T}X)^{-1}X^\mathrm{T}\boldsymbol{y} \tag{6}
\boldsymbol{y} 到 X\hat{\boldsymbol{w}} 的距离称为最小二乘误差。式 (6) 得到的结果与前文相同。
最佳逼近定理 假设 \mathcal{W} 是 \mathbb{R}^n 的一个子空间,\boldsymbol{y} 是 \mathbb{R}^n 中的任意向量,\hat{\boldsymbol{y}} 是 \boldsymbol{y} 在 \mathcal{W} 上的正交投影,那么 \hat{\boldsymbol{y}} 是 \mathcal{W} 中最接近 \boldsymbol{y} 的点,也就是
||\boldsymbol{y} – \hat{\boldsymbol{y}}|| < ||\boldsymbol{y} – \boldsymbol{v}||
对所有属于 \mathcal{W} 又异于 \hat{\boldsymbol{y}} 的 \boldsymbol{v} 成立。
正交分解定理 若 R 是 \mathbb{R}^n 的一个子空间,那么 \mathbb{R}^n 中每一个向量 \boldsymbol y 可以唯一表示为
\boldsymbol y = \hat{\boldsymbol y} + \boldsymbol z
其中 \hat{\boldsymbol y} 属于 W 而 \boldsymbol z 属于 W^\perp。实际上,如果 \{\boldsymbol u_1, \cdots, \boldsymbol u_p\} 是 W 的任意正交基,那么
\hat{\boldsymbol y} = \frac{\boldsymbol y \cdot \boldsymbol u_1}{\boldsymbol u_1 \cdot \boldsymbol u_1} \boldsymbol u_1 + \cdots + \frac{\boldsymbol y \cdot \boldsymbol u_p}{\boldsymbol u_p \cdot \boldsymbol u_p} \boldsymbol u_p
且 \boldsymbol z = \boldsymbol y – \hat{\boldsymbol y}。