[ML Notes] 线性回归:正交投影

  考虑前文所述的线性模型

f(X)=Xw

理想的 w 应使得 Xw=y,但这样的解并不一定存在。此时最好的选择是寻找一个 w,使得 Xw 尽可能接近 yyXw 之间的距离 ||yXw|| 越小,则近似程度越好。

  注意到向量 Xw 必然属于列空间 ColX,我们希望 XwColX 中最接近 y 的点,根据最佳逼近定理,该点应为 yColX 上的投影,即

ˆy=ProjColXy

由于 ˆy 属于 X 的列空间,故关于 w 的方程 Xw=ˆy 是相容的,且存在一个属于 Rnˆw,使得

Xˆw=ˆy

  若 ˆw 满足 Xˆw=ˆy,根据正交分解定理,对于 yColX 上的投影 ˆy,有 yˆyColX 正交,即 yXˆw 正交于 X 的每一列。对于 X 的任意列 x,有 x(yXˆw)=0xT(yXˆw)=0,因此有

XT(yXˆw)=0

故有

XTyXTXˆw=0

XTXˆw=XTy

上式称为 Xw=y 的法方程。当 XTX 可逆,最小二乘解为

ˆw=(XTX)1XTy

yXˆw 的距离称为最小二乘误差。式 (6) 得到的结果与前文相同。


  最佳逼近定理 假设 WRn 的一个子空间,yRn 中的任意向量,ˆyyW 上的正交投影,那么 ˆyW 中最接近 y 的点,也就是

||yˆy||<||yv||

对所有属于 W 又异于 ˆyv 成立。

  正交分解定理 若 RRn 的一个子空间,那么 Rn 中每一个向量 y 可以唯一表示为

y=ˆy+z

其中 ˆy 属于 Wz 属于 W。实际上,如果 {u1,,up}W 的任意正交基,那么

ˆy=yu1u1u1u1++yupupupup

z=yˆy