[ML Notes] 线性回归:最大似然
对如前文所述的线性模型
f(x)=wTx
记第 i 个样本为 (x(i),y(i)),假设有
y(i)=wTx(i)+ϵ(i)
其中 wTx(i) 为预测值;ϵ(i) 为误差,体现了未包含在模型中的影响或随机噪声。假设所有的 ϵ(i) 独立同分布,且 ϵ(i)∼N(0,σ2),即
p(ϵ(i))=1√2πσexp(−(ϵ(i))22σ2)
结合式 (2),在参数 w 下给定 x(i) 时 y(i) 的分布为
p(y(i)|x(i);w)=1√2πσexp(−(y(i)–wTx(i))22σ2)
即有 y(i)|x(i);w∼N(wTx(i),σ2)。
似然函数
L(w)=L(w;X,y)=p(y|X;w)
结合式 (4),有
L(w)=m∏i=1p(y(i)|x(i);w)=m∏i=11√2πσexp(−(y(i)–wTx(i))22σ2)
计算对数似然函数
l(w)=logL(w)=logm∏i=11√2πσexp(−(y(i)–wTx(i))22σ2)=m∑i=1log1√2πσexp(−(y(i)–wTx(i))22σ2)=m∑i=1(log1√2πσ–(y(i)–wTx(i))22σ2)=mlog1√2πσ–1σ2⋅12m∑i=1(y(i)–wTx(i))2
给定样本集,上式中第一项 mlog1√2πσ 和第二项的系数 1σ2 为常数,最大化对数似然 l(w) 等价于最小化 12m∑i=1(y(i)–wTx(i))2,即前文式 (3) 所示的最小二乘代价函数 J(w)
J(w)=12m∑i=1(y(i)–f(x(i)))2