[ML Notes] PCA:最近重构性
如前文所述,主成分分析通过将样本点投影到一个超平面上来实现降维,可以从最大可分性或最近重构性两个角度寻找理想的超平面。
从最近重构性的角度考虑,假设数据集有 m 个 n 维的样本点 x1,x2,…,xm,要将它们投影到 d 维的超平面 D 上。记 xk 在 D 上的投影为 ˆxk,则样本点到超平面的距离为
distance(xk,D)=||xk–ˆxk||2
记 W=(w1,w2,…,wd) 为超平面 D 的标准正交基,则 ˆxk 可以由这组基的线性组合表示
ˆxk=d∑i=1(wTixk)wi
要保证最近重构性,即最小化平方误差,优化目标为
minm∑k=1||xk–ˆxk||22s.t.wTiwj∀i,j=δi,j={1i=j0i≠j
式 (3) 中的距离可以展开为
||xk–ˆxk||22=(xk–ˆxk)T(xk–ˆxk)=xTkxk–2xTkˆxk+ˆxTkˆxk
式 (4) 中的第一项 xTkxk 与 W 无关的常数。式 (4) 中的第二项可以进一步展开为
xTkˆxk=xTkd∑i=1(wTixk)wi(由式(2))=d∑i=1(wTixk)xTkwi(括号内的值为标量)=d∑i=1wTixkxTkwi
式 (4) 中的第三项可以进一步展开为
ˆxTkˆxk=(d∑i=1(wTixk)wi)T(d∑j=1(wTjxk)wj)=d∑i=1d∑j=1((wTixk)wi)T((wTjxk)wj)
上式中 wTixk 和 wTjxk 都是标量,wTiwj 仅在 i=j 时为 1,在 i≠j 时为 0,故上式可以化简为
ˆxTkˆxk=d∑i=1d∑j=1(wTixk)(wTjxk)wTiwj=d∑i=1(wTixk)(wTixk)wTiwi=d∑i=1(wTixk)(wTixk)=d∑i=1(wTixk)(xTkwi)=d∑i=1wTixkxTkwi
将式 (5)、式 (6) 代入式 (4),可得
||xk–ˆxk||22=xTkxk–2xTkˆxk+ˆxTkˆxk=xTkxk+d∑i=1wTixkxTkwi–2d∑i=1wTixkxTkwi=xTkxk–d∑i=1wTixkxTkwi
上式中的 d∑j=1wTixkxTkwi 是 WTxkxTkW 的迹,xTkxk 是一个常数(记为 Ck),有
||xk–ˆxk||22=–tr(WTxkxTkW)+Ck
于是式 (3) 中最小化的目标
m∑k=1||xk–ˆxk||22=–m∑k=1tr(WTxkxTkW)+m∑k=1Ck
其中 m∑i=1Ck 仍是常数,又由 ∑kxkxTk=XXT,式 (3) 的优化问题变为
maxtr(WTXXTW)s.t.WTW=I
W 中包含 d 个基 w1,w2,…,wd,对这些基依次求解,对于一个基向量 w,式 (8) 变为
maxtr(wTXXTw)s.t.wTw=1
可见这个优化问题与从最大可分性角度得到的问题等价。