Tag Archive: Gradient Vanishing / Exploding

Deep Learning Note: 5-4 GRU 和 LSTM

1. RNN 中的梯度消失问题   前面介绍的 RNN 和普通的深度网络一样,都会存在梯度消失(Gradient Vanishing)的问题,网络末端的错误将难以传递到前端,从而使得前端不能根据后端的错误进行修正。   例如对于如图 1 所示的网络,假设网络在 $t = T_y$ 时刻输出的 $y^{<T_y>}$ 与实际标签不符,网络的预测出现错误,由于梯度消失的问题,这个错误将很难…
Read more

Deep Learning Note: 2-3 优化问题

1. 标准化输入   对输入数据进行标准化(Normalizing)有利于提高学习速度。   例如对于如图 1 所示的数据,其标准化过程分为两步,首先让数据减去其均值(如图 2 中左图),然后再除以方差(如图 2 中右图):   计算过程为: \begin{equation} x := \frac{x – \mu}{\sigma} \tag{1} \end{equation}   其中…
Read more