Processing math: 0%

[ML Notes] 线性回归:最大似然

  对如前文所述的线性模型

f(\boldsymbol{x}) = \boldsymbol{w}^\mathrm{T} \boldsymbol{x} \tag{1}

记第 i 个样本为 (\boldsymbol{x}^{(i)}, y^{(i)}),假设有

y^{(i)} = \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)} + \epsilon^{(i)} \tag{2}

其中 \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)} 为预测值;\epsilon^{(i)} 为误差,体现了未包含在模型中的影响或随机噪声。假设所有的 \epsilon^{(i)} 独立同分布,且 \epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2),即

p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \bigg) \tag{3}

结合式 (2),在参数 \boldsymbol{w} 下给定 \boldsymbol{x}^{(i)}y^{(i)} 的分布为

p(y^{(i)}|\boldsymbol{x}^{(i)};\boldsymbol{w}) = \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \tag{4}

即有 y^{(i)}|\boldsymbol{x}^{(i)};\boldsymbol{w} \sim \mathcal{N}(\boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)}, \sigma^2)

  似然函数

L(\boldsymbol{w}) = L(\boldsymbol{w}; X, \boldsymbol{y}) = p(\boldsymbol{y}|X; \boldsymbol{w})

结合式 (4),有

\begin{aligned} L(\boldsymbol{w}) &= \prod_{i=1}^m p(y^{(i)}|\boldsymbol{x}^{(i)}; \boldsymbol{w}) \\ &= \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \end{aligned} \tag{5}

计算对数似然函数

\begin{aligned} l(\boldsymbol{w}) &= \log L(\boldsymbol{w}) \\ &= \log \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\ &= \sum_{i=1}^m \log \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg( -\frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\ &= \sum_{i=1}^m \bigg( \log\frac{1}{\sqrt{2\pi}\sigma} – \frac{(y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2}{2\sigma^2} \bigg) \\ &= m\log\frac{1}{\sqrt{2\pi}\sigma} – \frac{1}{\sigma^2} \cdot \frac{1}{2} \sum_{i=1}^m (y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2 \end{aligned} \tag{6}

给定样本集,上式中第一项 m\log\frac{1}{\sqrt{2\pi}\sigma} 和第二项的系数 \frac{1}{\sigma^2} 为常数,最大化对数似然 l(\boldsymbol{w}) 等价于最小化 \frac{1}{2} \sum\limits_{i=1}^m (y^{(i)} – \boldsymbol{w}^\mathrm{T} \boldsymbol{x}^{(i)})^2,即前文(3) 所示的最小二乘代价函数 J(w)

J(\boldsymbol{w}) =\frac{1}{2} \sum_{i=1}^m \big( y^{(i)} – f(\boldsymbol{x}^{(i)}) \big)^2