[ML Notes] 线性回归:正交投影
考虑前文所述的线性模型
f(X)=Xw
理想的 w 应使得 Xw=y,但这样的解并不一定存在。此时最好的选择是寻找一个 w,使得 Xw 尽可能接近 y 。y 与 Xw 之间的距离 ||y–Xw|| 越小,则近似程度越好。
注意到向量 Xw 必然属于列空间 ColX,我们希望 Xw 是 ColX 中最接近 y 的点,根据最佳逼近定理,该点应为 y 在 ColX 上的投影,即
ˆy=ProjColXy
由于 ˆy 属于 X 的列空间,故关于 w 的方程 Xw=ˆy 是相容的,且存在一个属于 Rn 的 ˆw,使得
Xˆw=ˆy
若 ˆw 满足 Xˆw=ˆy,根据正交分解定理,对于 y 在 ColX 上的投影 ˆy,有 y–ˆy 与 ColX 正交,即 y–Xˆw 正交于 X 的每一列。对于 X 的任意列 x,有 x⋅(y–Xˆw)=0 即 xT(y–Xˆw)=0,因此有
XT(y–Xˆw)=0
故有
XTy–XTXˆw=0
XTXˆw=XTy
上式称为 Xw=y 的法方程。当 XTX 可逆,最小二乘解为
ˆw=(XTX)−1XTy
y 到 Xˆw 的距离称为最小二乘误差。式 (6) 得到的结果与前文相同。
最佳逼近定理 假设 W 是 Rn 的一个子空间,y 是 Rn 中的任意向量,ˆy 是 y 在 W 上的正交投影,那么 ˆy 是 W 中最接近 y 的点,也就是
||y–ˆy||<||y–v||
对所有属于 W 又异于 ˆy 的 v 成立。
正交分解定理 若 R 是 Rn 的一个子空间,那么 Rn 中每一个向量 y 可以唯一表示为
y=ˆy+z
其中 ˆy 属于 W 而 z 属于 W⊥。实际上,如果 {u1,⋯,up} 是 W 的任意正交基,那么
ˆy=y⋅u1u1⋅u1u1+⋯+y⋅upup⋅upup
且 z=y–ˆy。