Processing math: 100%

[ML Notes] 线性回归:最大似然

  对如前文所述的线性模型

f(x)=wTx

记第 i 个样本为 (x(i),y(i)),假设有

y(i)=wTx(i)+ϵ(i)

其中 wTx(i) 为预测值;ϵ(i) 为误差,体现了未包含在模型中的影响或随机噪声。假设所有的 ϵ(i) 独立同分布,且 ϵ(i)N(0,σ2),即

p(ϵ(i))=12πσexp((ϵ(i))22σ2)

结合式 (2),在参数 w 下给定 x(i)y(i) 的分布为

p(y(i)|x(i);w)=12πσexp((y(i)wTx(i))22σ2)

即有 y(i)|x(i);wN(wTx(i),σ2)

  似然函数

L(w)=L(w;X,y)=p(y|X;w)

结合式 (4),有

L(w)=mi=1p(y(i)|x(i);w)=mi=112πσexp((y(i)wTx(i))22σ2)

计算对数似然函数

l(w)=logL(w)=logmi=112πσexp((y(i)wTx(i))22σ2)=mi=1log12πσexp((y(i)wTx(i))22σ2)=mi=1(log12πσ(y(i)wTx(i))22σ2)=mlog12πσ1σ212mi=1(y(i)wTx(i))2

给定样本集,上式中第一项 mlog12πσ 和第二项的系数 1σ2 为常数,最大化对数似然 l(w) 等价于最小化 12mi=1(y(i)wTx(i))2,即前文(3) 所示的最小二乘代价函数 J(w)

J(w)=12mi=1(y(i)f(x(i)))2