[ML Notes] 线性回归:最大似然
对如前文所述的线性模型
f(\boldsymbol{x}) = \boldsymbol{w}^\mathrm{T} \boldsymbol{x} \tag{1}
记第 i 个样本为 (\boldsymbol{x}^{(i)}, y^{(i)}),假设有
y^{(i)} = \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)} + \epsilon^{(i)} \tag{2}
其中 \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)} 为预测值;\epsilon^{(i)} 为误差,体现了未包含在模型中的影响或随机噪声。假设所有的 \epsilon^{(i)} 独立同分布,且 \epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2),即
p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \bigg) \tag{3}
结合式 (2),在参数 \boldsymbol{w} 下给定 \boldsymbol{x}^{(i)} 时 y^{(i)} 的分布为
p(y^{(i)}|\boldsymbol{x}^{(i)};\boldsymbol{w}) = \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \tag{4}
即有 y^{(i)}|\boldsymbol{x}^{(i)};\boldsymbol{w} \sim \mathcal{N}(\boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)}, \sigma^2)。
似然函数
L(\boldsymbol{w}) = L(\boldsymbol{w}; X, \boldsymbol{y}) = p(\boldsymbol{y}|X; \boldsymbol{w})
结合式 (4),有
\begin{aligned} L(\boldsymbol{w}) &= \prod_{i=1}^m p(y^{(i)}|\boldsymbol{x}^{(i)}; \boldsymbol{w}) \\ &= \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \end{aligned} \tag{5}
计算对数似然函数
\begin{aligned} l(\boldsymbol{w}) &= \log L(\boldsymbol{w}) \\ &= \log \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\ &= \sum_{i=1}^m \log \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\ &= \sum_{i=1}^m \bigg( \log\frac{1}{\sqrt{2\pi}\sigma} – \frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\ &= m\log\frac{1}{\sqrt{2\pi}\sigma} – \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^m (y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2 \end{aligned} \tag{6}
给定样本集,上式中第一项 m\log\frac{1}{\sqrt{2\pi}\sigma} 和第二项的系数 \frac{1}{\sigma^2} 为常数,最大化对数似然 l(\boldsymbol{w}) 等价于最小化 \frac{1}{2} \sum\limits_{i=1}^m (y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2,即前文式 (3) 所示的最小二乘代价函数 J(w)
J(\boldsymbol{w}) =\frac{1}{2} \sum_{i=1}^m \big( y^{(i)} – f(\boldsymbol{x}^{(i)}) \big)^2