Deep Learning Note: 5-4 GRU 和 LSTM

1. RNN 中的梯度消失问题   前面介绍的 RNN 和普通的深度网络一样,都会存在梯度消失(Gradient Vanishing)的问题,网络末端的错误将难以传递到前端,从而使得前端不能根据后端的错误进行修正。   例如对于如图 1 所示的网络,假设网络在 $t = T_y$ 时刻输出的 $y^{<T_y>}$ 与实际标签不符,网络的预测出现错误,由于梯度消失的问题,这个错误将很难…
Read more

Deep Learning Note: 5-3 语言模型

1. 语言建模 1.1. 语言模型   考虑通过语音识别以下两个句子:   这两个句子的读音完全一样,如果一个人听到这样的句子,可以很自然地认为听到了第二句,而对于算法来说,需要通过语言模型来判断当前输入的语音到底对应了那一句话。语言模型是语音识别和机器翻译系统的核心组件,其作用是,给定一个句子,给出该句子是特定一句话的概率,即给出: \begin{equation} P(y^{}, y^{},&…
Read more

Deep Learning Note: 5-2 循环神经网络

1. 循环神经网络   图 1 展示了一个简单的循环神经网络的结构。   网络依次处理输入数据 $x$ 中的每个单词:首先处理第一个词 $x^{}$,将它输入到一层神经网络中,得到对 $x^{}$ 这个词的激活值 $a^{}$ 和预测值 $\hat{y}^{}$;然后处理第二个词 $x^{}$,将它和前一层的激活值 $a^{}$ 一起输入到一层神经网络中,得到对 $x^{}$ 这个词的激活值 $a…
Read more

Deep Learning Note: 5-1 序列模型

1. 序列模型   循环神经网络(Recurrent Neural Network)用于处理序列模型,常见的应用场景有: 语音识别(Speech Recognition):输入一段语音数据,输出语音内容的文本。输入和输出都是序列数据。 音乐生成(Music Generation):没有输入,或输入特定参数(如一个表示音乐风格的数字),输出一段音乐。只有输出是序列数据。 情感分类(Sentiment…
Read more

Deep Learning Note: 4-12 一维和三维的推广

  前面讨论了使用卷积网络处理二维的图像数据的各种方法,其中很多方法也适用于一维和三维的数据。   例如计算如图 1 所示的二维图像和过滤器的卷积,图像尺寸为 $14 \times 14$,过滤器尺寸为 $5 \times 5$,二者卷积得到结果的尺寸为 $10 \times 10$;如果网络中某一层使用 16 个 $5 \times 5$ 的过滤器,则卷积结果的大小为 $10 \times 10…
Read more

Deep Learning Note: 4-11 Neural Style Transfer

1. 何为 Neural Style Transfer   Neural Style Transfer 指的是给定一张内容图片(Content,以下简称 C)和一张风格图片(Style,以下简称 S),将 S 图片中的风格迁移到 C 图片上,生成一张新的图片(Generated,以下简称 G),如图 1 所示(其中的生成图片来自 Justion Johnson)。 2. 深度卷积网络学到了什么  …
Read more

Deep Learning Note: 4-10 人脸识别

1. 人脸认证和人脸识别   在人脸认证(Face Verification)问题中,输入为一张图像和身份(姓名或 ID 等),输出为图像中的人是否与输入的身份相匹配。人脸认证是一个 1:1 问题,即只需要判断输入的一个图像是否与输入的一个身份相符。   在人脸识别(Face Recognition)问题中,有一个记录了 K 个人身份信息的数据库,对于一张输入图像,如果图像中的人在数据库中有记录,…
Read more

Deep Learning Note: 4-9 Region Proposal

  无论是前文介绍的滑窗检测算法还是其卷积实现,都需要无差别地计算整张图片,即使用分类器对图像上各个位置的窗口进行识别。Ross Girshick 等人提出的 R-CNN(Regions with CNN features)算法会先对图像中可能存在目标的区域进行建议,然后仅对这些区域进行识别。   R-CNN 算法对识别区域进行建议的方式是,先通过分割算法(Segmentation Algorit…
Read more

Deep Learning Note: 4-8 边框预测

1. 边框预测   前文介绍的滑窗算法的一个缺点是无法准确给出目标的边框,这是因为在一轮滑窗过程中使用的窗口大小是固定的,且窗口每次移动一个特定的步长,如果窗口大小和移动步长不合适,可能会刚好跳过目标,或者只包含了目标的一部分。   YOLO算法给出了更精确地进行边框预测的方法。YOLO 是 You Only Look Once 的缩写,其基本步骤是,将输入图像划分为若干网格,在每个网格上通过图像…
Read more

Deep Learning Note: 4-7 检测算法

1. 目标定位   前文主要讨论了图像分类问题,即判断图像中对象的类型,如图 1 中左图,给出一张图片,识别它是一张汽车的图片。而对于分类和定位问题,不仅要判断图像中是否存在目标对象,还要找到该对象的位置,如图 1 中间的图,不仅要识别出图中的汽车,还要找到汽车的位置。以上两个问题都只针对一个目标,目标检测问题则更进一步,需要识别和定位图像中存在的全部目标,这些目标还可能属于不同的分类,如图 1 …
Read more