逻辑回归代价函数的解释

Author: nex3z 2017-09-17

　　本文整理自 Neural Networks and Deep Learning 的 Explanation of logistic regression cost function 一节，给出了逻辑回归代价函数的解释。

　　二分类逻辑回归中，记预测值为 $\hat{y}$ ，真实值为 $y$ 。预测值 $\hat{y}$ 的计算方式为：

$\begin{equation} \hat{y} = a(w^Tx + b) \tag{1} \end{equation}$

其中，激活函数 $a = \sigma(z)$ 是 Sigmoid 函数：

$\begin{equation} \sigma(z) = \frac{1}{1 + e^{-z}} \tag{2} \end{equation}$

可以将 $\hat{y}$ 看作对给定样本 $x$ ，预测结果为 1 的概率，即：

$\begin{equation} \hat{y} = P(y=1|x) \tag{3} \end{equation}$

在二分类的场景， $y$ 只能取 0 或者 1，则当 $y = 1$ 时，有：

$\begin{equation} P(y|x) = \hat{y} \tag{4} \end{equation}$

当 $y = 0$ 时，有：

$\begin{equation} P(y|x) = 1 – \hat{y} \tag{5} \end{equation}$

式 (4)、(5) 可以综合为：

$\begin{equation} P(y|x) = \hat{y}^{y}(1 – \hat{y})^{(1 – y)} \tag{6} \end{equation}$

分别将 $y = 1$ 、 $y = 0$ 带入式 (6)，可得到与式 (4)、(5) 相同的结果。

对式 (6) 取对数（对数函数是严格单调递增的），消除指数项，得：

$\begin{equation} log(p(y|x)) = ylog(\hat{y}) + (1 – y)log(1 – \hat{y}) \tag{7} \end{equation}$

我们的目标是让 $p(y|x)$ 最大化，即对 $y = 1$ 的情况，预测结果为 1 的概率最大化；对 $y = 0$ 的情况，预测结果为 0 的概率最大化。而在训练中，通常会让代价函数最小化，于是在上式的等号右边提取一个负号，得到：

$\begin{equation} log(p(y|x)) = – [-ylog(\hat{y}) – (1 – y)log(1 – \hat{y})] = -L(\hat{y}, y) \tag{8} \end{equation}$

由此得到了对单个样本的损失函数 $L(\hat{y}, y)$ ：

$\begin{equation} L(\hat{y}, y) = -ylog(\hat{y}) – (1 – y)log(1 – \hat{y}) \tag{9} \end{equation}$

　　以上是对单个样本的情况。对于 m 个样本的情况，假设各样本是独立同分布的（IID，Independent and Identically Distributed）有：

$\begin{equation} P(labels) = \prod_{i = 1}^{m} P(y^{(i)}|x^{(i)}) \tag{10} \end{equation}$

其中 $i$ 为样本序号。对上式取对数，得到：

$\begin{equation} log(P(labels)) = \sum_{i = 1}^{m} log(P(y^{(i)}|x^{(i)})) = -\sum_{i = 1}^{m} L(\hat{y}^{(i)}, y^{(i)}) \tag{11} \end{equation}$

由此定义对所有 m 个样本的代价函数为：

$\begin{equation} J(W, b) = \frac{1}{m}\sum_{i = 1}^{m} L(\hat{y}^{(i)}, y^{(i)}) \tag{12} \end{equation}$

其中 $W$ 和 $b$ 为模型参数，即权重和偏置。这里去掉了式 (11) 等号右边的负号，因为我们想要通过最小化代价函数的方式最大化 $P(labels)$ ；另外上式还加入了 $\frac{1}{m}$ 一项，用于对结果进行缩放。