[ML Notes] 线性回归:最大似然

  对如前文所述的线性模型

$$
f(\boldsymbol{x}) = \boldsymbol{w}^\mathrm{T} \boldsymbol{x} \tag{1}
$$

记第 $i$ 个样本为 $(\boldsymbol{x}^{(i)}, y^{(i)})$,假设有

$$
y^{(i)} = \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)} + \epsilon^{(i)} \tag{2}
$$

其中 $\boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)}$ 为预测值;$\epsilon^{(i)}$ 为误差,体现了未包含在模型中的影响或随机噪声。假设所有的 $\epsilon^{(i)}$ 独立同分布,且 $\epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2)$,即

$$
p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \bigg) \tag{3}
$$

结合式 $(2)$,在参数 $\boldsymbol{w}$ 下给定 $\boldsymbol{x}^{(i)}$ 时 $y^{(i)}$ 的分布为

$$
p(y^{(i)}|\boldsymbol{x}^{(i)};\boldsymbol{w}) = \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \tag{4}
$$

即有 $y^{(i)}|\boldsymbol{x}^{(i)};\boldsymbol{w} \sim \mathcal{N}(\boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)}, \sigma^2)$。

  似然函数

$$
L(\boldsymbol{w}) = L(\boldsymbol{w}; X, \boldsymbol{y}) = p(\boldsymbol{y}|X; \boldsymbol{w})
$$

结合式 $(4)$,有

$$
\begin{aligned}
L(\boldsymbol{w}) &= \prod_{i=1}^m p(y^{(i)}|\boldsymbol{x}^{(i)}; \boldsymbol{w}) \\
&= \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg)
\end{aligned} \tag{5}
$$

计算对数似然函数

$$
\begin{aligned}
l(\boldsymbol{w}) &= \log L(\boldsymbol{w}) \\
&= \log \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\
&= \sum_{i=1}^m \log \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\
&= \sum_{i=1}^m \bigg( \log\frac{1}{\sqrt{2\pi}\sigma} – \frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\
&= m\log\frac{1}{\sqrt{2\pi}\sigma} – \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^m (y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2
\end{aligned} \tag{6}
$$

给定样本集,上式中第一项 $m\log\frac{1}{\sqrt{2\pi}\sigma}$ 和第二项的系数 $\frac{1}{\sigma^2}$ 为常数,最大化对数似然 $l(\boldsymbol{w})$ 等价于最小化 $\frac{1}{2} \sum\limits_{i=1}^m (y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2$,即前文式 $(3)$ 所示的最小二乘代价函数 $J(w)$

$$
J(\boldsymbol{w}) =\frac{1}{2} \sum_{i=1}^m \big( y^{(i)} – f(\boldsymbol{x}^{(i)}) \big)^2
$$