Deep Learning Note: 1-9 深度神经网络

Author: nex3z 2017-12-26

Backward Propagation, Forward Propagation, Neural Network

　　前面以一个简单的 2 层神经网络为例，介绍了前向传播和反向传播的计算过程。下面扩展到 L 层神经网络的情况。

图 1

　　以图 1 所示的网络为例，记网络的层数为 $L$，此时 $L = 4$。使用 $n^{[l]}$ 表示第 $l$ 层中节点的个数，记输入层为第 0 层，输入有三个特征，故 $n^{[0]} = n_x = 3$；第一个隐藏层有 5 个节点，故 $n^{[1]} = 5$，以此类推，$n^{[2]} = 5$，$n^{[3]} = 3$，$n^{[4]} = n^{[L]} = 1$。使用 $a^{[l]}$ 表示第 $l$ 层的激活值，则有 $a^{[l]} = g^{[l]}(z^{[l]})$，其中 $g^{[l]}$ 为第 $l$ 层的激活函数。使用 $W^{[l]}$、$b^{[l]}$ 分别表示第 $l$ 层的权重和偏置。

Contents

1. 计算网络输出
2. 检查矩阵的维数
3. 深度神经网络的构造块
4. 前向传播
5. 反向传播
6. 参数和超参数

1. 计算网络输出

　　对于图 1 所示的网络，单个样本前向传播的计算步骤为：

第一层：

\begin{equation}
z^{[1]} = W^{[1]}x + b^{[1]} = W^{[1]}a^{[0]} + b^{[1]}
\end{equation}

\begin{equation}
a^{[1]} = g^{[1]}(z^{[1]})
\end{equation}

第二层：

\begin{equation}
z^{[2]} = W^{[2]}a^{[1]} + b^{[2]}
\end{equation}

\begin{equation}
a^{[2]} = g^{[2]}(z^{[2]})
\end{equation}

第三层：

\begin{equation}
z^{[3]} = W^{[3]}a^{[2]} + b^{[3]}
\end{equation}

\begin{equation}
a^{[3]} = g^{[3]}(z^{[3]})
\end{equation}

第四层（输出层）：

\begin{equation}
z^{[4]} = W^{[4]}a^{[3]} + b^{[4]}
\end{equation}

\begin{equation}
a^{[4]} = g^{[4]}(z^{[4]})
\end{equation}

　　更一般地，可以将单个样本前向传播第 $l$ 层的计算写为如下的形式：

\begin{equation}
z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]} \tag{1}
\end{equation}

\begin{equation}
a^{[l]} = g^{[l]}(z^{[l]}) \tag{2}
\end{equation}

　　$m$ 个样本前向传播的向量化实现形式为：

\begin{equation}
Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]} \tag{3}
\end{equation}

\begin{equation}
A^{[l]} = g^{[l]}(Z^{[l]}) \tag{4}
\end{equation}

　　式 (3)、(4) 向量化地计算了 $m$ 个样本在第 $l$ 层上的前向传播，但无法向量化整个 $L$ 层网络的计算，仍需要逐层计算各层的激活值，作为下一层的输入，逐层向前传播到输出层。

2. 检查矩阵的维数

　　如前所示的计算涉及大量的矩阵运算，通过检查各矩阵的维数是否匹配，可以快速地对计算的合法性和正确性进行初步校验。

图 2

　　以图 2 所示的网络为例，首先看第 1 层，有：

\begin{equation}
z^{[1]} = W^{[1]}x + b^{[1]}
\end{equation}

　　上式中 $z^{[1]}$ 的大小与第一层节点数相同，是一个 $n^{[1]} \times 1$ 即 $3 \times 1$ 的向量；$x$ 是一个 $n^{[0]} \times 1$ 即 $2 \times 1$ 的向量；$W^{[1]}$ 是一个 $n^{[1]} \times n^{[0]}$ 即 $3 \times 2$ 的矩阵，它与 $2 \times 1$ 的 $x$ 相乘得到一个 $3 \times 1$ 的向量，与 $z^{[1]}$ 的大小相符。$b^{[1]}$ 的大小与 $W^{[1]}x$ 和 $z^{[1]}$ 相同，是一个 $n^{[1]} \times 1$ 即 $3 \times 1$ 的向量。

　　一般的，对于第 $l$ 层，$z^{[l]}$ 和 $a^{[l]}$ 都是 $n^{[l]} \times 1$ 的向量，权重 $W^{[l]}$ 是一个 $n^{[l]} \times n^{[l-1]}$ 的矩阵，偏置 $b^{[l]}$ 是一个 $n^{[l]} \times 1$ 的向量。

　　由此可以快速得到各层参数的大小为：

$W^{[2]}$：$5 \times 3$，$b^{[2]}$：$5 \times 1$
$W^{[3]}$：$4 \times 5$，$b^{[3]}$：$4 \times 1$
$W^{[4]}$：$2 \times 4$，$b^{[4]}$：$2 \times 1$
$W^{[5]}$：$1 \times 2$，$b^{[5]}$：$1 \times 1$

　　在进行反向传播时，$dW^{[l]}$ 和 $db^{[l]}$ 的大小与 $W^{[l]}$ 和 $b^{[l]}$ 相同，分别为 $n^{[l]} \times n^{[l-1]}$ 和 $n^{[l]} \times 1$。

　　下面考虑向量化计算 $m$ 个样本的情况，对第一层，有：

\begin{equation}
Z^{[1]} = W^{[1]}X + b^{[1]}
\end{equation}

　　上式中 $Z^{[1]}$ 的大小为 $n^{[1]} \times m$；$W^{[1]}$ 的大小不变，仍为 $n^{[1]} \times n^{[0]}$；$X^{[1]}$ 的大小为 $n^{[0]} \times m$；对于 $b^{[1]}$，仍可以将它看成是 $n^{[1]} \times 1$ 的向量，但在实际运算中，要把它复制并水平叠加成 $n^{[1]} \times m$ 的形式，才能与 $W^{[1]}X$ 相加，在 Python 中可以利用其广播机制自动完成这一操作。

　　在向量化计算 $m$ 个样本的时候，对于第 $l$ 层，$W^{[l]}$ 和 $b^{[l]}$ 的大小与计算单个样本的情况一致，分别为 $n^{[l]} \times n^{[l-1]}$ 和 $n^{[l]} \times 1$。而对于 $Z^{[l]}$ 和 $A^{[l]}$，以及反向传播时的偏导 $dZ^{[l]}$ 和 $dA^{[l]}$，都是 $n^{[l]} \times m$ 的矩阵。

3. 深度神经网络的构造块

　　对于网络的第 $l$ 层，参数为权重 $W^{[l]}$ 和偏置 $b^{[l]}$。前向传播时，输入为 $a^{[l-1]}$，输出为 $a^{[l]}$，计算过程为：

\begin{equation}
Z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]} \tag{5}
\end{equation}

\begin{equation}
a^{[l]} = g^{[l]}(Z^{[l]}) \tag{6}
\end{equation}

　　在计算式 (5) 时，通常会缓存 $Z^{[l]}$ 的结果，直接用于后续的反向传播。在进行反向传播时，输入为 $da^{[l]}$，以及前面缓存的 $Z^{[l]}$。输出为 $da^{[l-1]}$，以及参数的梯度 $dW^{[l]}$、$db^{[l]}$。

　　由此得到神经网络的基本结构如图 3 所示。

图 3

　　图 3 中，对于神经网络的第 $l$ 层，首先通过前向传播，由第 $l-1$ 层的激活值 $a^{[l-1]}$ 和第 $l$ 层的参数 $W^{[l]}$、$b^{[l]}$，计算得到第 $l$ 层的激活值 $a^{[l]}$，并缓存中间结果 $Z^{[l]}$。然后通过反向传播，由第 $l$ 层的激活值的导数 $da^{[l]}$ 和参数 $W^{[l]}$、$b^{[l]}$，计算得到第 $l$ 层各参数的梯度 $dW^{[l]}$、$db^{[l]}$，以及第 $l-1$ 层的激活值的导数 $da^{[l-1]}$。使用梯度 $dW^{[l]}$、$db^{[l]}$ 更新该层的参数 $W^{[l]}$、$b^{[l]}$：

\begin{equation}
W^{[l]} = W^{[l]} – \alpha dW^{[l]} \tag{7}
\end{equation}

\begin{equation}
b^{[l]} = b^{[l]} – \alpha db^{[l]} \tag{8}
\end{equation}

　　以图 3 所示的结构为基础，可以将神经网络抽象为如图 4 所示的形式。

图 4

4. 前向传播

　　结合前面计算网络输出的过程和网络的基本结构，可以得到第 $l$ 层前向传播的计算过程为：

输入：$a^{[l-1]}$
输出：$a^{[l]}$，缓存 $z^{[l]}$
单个样本的计算：

\begin{equation}
z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]} \tag{9}
\end{equation}

\begin{equation}
a^{[l]} = g^{[l]}(z^{[l]}) \tag{10}
\end{equation}

向量化计算 $m$ 个样本：

\begin{equation}
Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]} \tag{11}
\end{equation}

\begin{equation}
A^{[l]} = g^{[l]}(Z^{[l]}) \tag{12}
\end{equation}

5. 反向传播

　　结合前文反向传播的推导和网络的基本结构，可以得到第 $l$ 层前向传播的计算过程为：

输入：$da^{[l]}$
输出：$da^{[l-1]}$，$dW^{[l]}$，$db^{[l]}$
单个样本的计算：

\begin{equation}
dz^{[l]} = da^{[l]} * g^{[l]\prime}(z^{[l]}) \tag{13}
\end{equation}

\begin{equation}
dW^{[l]} = dz^{[l]} a^{[l-1]} \tag{14}
\end{equation}

\begin{equation}
db^{[l]} = dz^{[l]} \tag{15}
\end{equation}

\begin{equation}
da^{[l-1]} = W^{[l]T} dz^{[l]} \tag{16}
\end{equation}

向量化计算 $m$ 个样本：

\begin{equation}
dZ^{[l]} = dA^{[l]} * g^{[l]\prime}(Z^{[l]}) \tag{17}
\end{equation}

\begin{equation}
dW^{[l]} = \frac{1}{m} dZ^{[l]} A^{[l-1]T} \tag{18}
\end{equation}

\begin{equation}
db^{[l]} = \frac{1}{m} np.sum(dZ^{[l]}, axis = 1, keepdims = True) \tag{19}
\end{equation}

\begin{equation}
dA^{[l-1]} = W^{[l]T} dZ^{[l]} \tag{20}
\end{equation}

　　如果使用式 (21) 作为损失函数，其中 $\hat{y}$ 为第 $L$ 层的输出，即 $a^{[L]}$，则 $da^{[L]}$ 如式 (22) 所示。

\begin{equation}
L(\hat{y}, y) = -y\log{\hat{y}} – (1 – y)log(1- \hat{y}) \tag{21}
\end{equation}

\begin{equation}
da^{[L]} = d\hat{y} = -\frac{y}{\hat{y}} + \frac{1-y}{1-\hat{y}} \tag{22}
\end{equation}

6. 参数和超参数

　　训练神经网络时涉及到的参数除了模型本身的参数 $W$ 和 $b$，还有其他一些参数，如学习率 $\alpha$、迭代次数、隐藏层数量 $L$、隐藏单元数量 $n^{[l]}$、激活函数等，这些参数并不直接作用于预测，但它们会在一定程度上控制或影响 $W$ 和 $b$ 的学习过程和结果，这些参数称为超参数（Hyperparameter）。

　　除了上面提到的，在训练神经网络的过程中涉及的超参数还有很多，比如动量（Momentum）项、最小批大小（Minibatch Size）、正则化（Regularization）形式等等。

　　由于涉及到众多的超参数，通常很难在一开始就找到最佳的选择，往往需要尝试各种选择和取值，进行比较。应用机器学习是一个非常依赖经验的过程，比如对某个超参数的取值有了一个猜想，那么接下来就要把它实现出来，进行实验，根据实验结果对超参数进行必要的调整，再进行实现···如此循环。

　　另一方面，即便找到了较好的超参数，随着外界条件的变化，比如计算环境的变化，原有的超参数不再适用于新的环境，无法达到原来的性能。所以通常每隔一段时间，比如几个月或几年，需要重新尝试各种不同的超参数，检查是否有新的更好的参数选择。

2017 年 12 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31