Deep Learning Note: 4-12 一维和三维的推广

  前面讨论了使用卷积网络处理二维的图像数据的各种方法,其中很多方法也适用于一维和三维的数据。

  例如计算如图 1 所示的二维图像和过滤器的卷积,图像尺寸为 $14 \times 14$,过滤器尺寸为 $5 \times 5$,二者卷积得到结果的尺寸为 $10 \times 10$;如果网络中某一层使用 16 个 $5 \times 5$ 的过滤器,则卷积结果的大小为 $10 \times 10 \times 16$。

图 1

图 1

  卷积操作可以应用于一维的数据。图 2 中,卷积符号左边的是心电图数据,它是一个时序信号,长度为 14。这个信号与另一个长度为 5 的心跳信号相卷积,可以得一个长度为 10 的序列,它是在输入信号上对心跳信号的检测结果。类似地,如果网络中某一层使用 16 个长度为 5 的信号进行卷积,则卷积结果的大小为 $10 \times 16$。

图 2

图 2

  虽然对于很多序列数据,通常会使用循环神经网路(Recurrent Neural Network,RNN)进行处理,但是在一维数据上使用卷积模型也是可行的。

  类似地,卷积也可以应用于三维数据。例如对于图 3 所示的三维卷积,假设输入数据的大小为 $14 \times 14 \times 14$,它与一个 $5 \times 5 \times 5$ 的过滤器相卷积,卷积结果的大小为 $10 \times 10 \times 10$。如果网络中某一层使用 16 个 $5 \times 5 \times 5$ 的过滤器,则卷积结果的大小为 $10 \times 10 \times 10 \times 16$。

图 3

图 3

  三维数据上的卷积相当于在三维的数据中检测三维的特征,一个常见用途是用来分析 CT 扫描结果,即将 CT 扫描结果看成是一系列二维图像按扫描位置叠加起来的三维数据,通过卷积在其中寻找特定的特征。另外,也可将电影数据看成是二维的画面按照时间进行叠加的三维数据,通过卷积检测电影中人物的动作。