[Snippet] 一元线性回归
1. 基本形式 一元线性回归的基本形式为: \begin{equation} h(x) = w x + b \tag{1} \end{equation} 其中 $x$ 为特征,$w$ 和 $b$ 分别为权重和偏置。其对应的均方误差为 \begin{equation} J(w, b) = \frac{1}{m} \sum_{i=1}^m [y_i – h(x_i)]^2 = \fra…
Read more
learn, build, evaluate
1. 基本形式 一元线性回归的基本形式为: \begin{equation} h(x) = w x + b \tag{1} \end{equation} 其中 $x$ 为特征,$w$ 和 $b$ 分别为权重和偏置。其对应的均方误差为 \begin{equation} J(w, b) = \frac{1}{m} \sum_{i=1}^m [y_i – h(x_i)]^2 = \fra…
Read more
1. 概述 Network In Network 一文提交于 2013/12,文章通过在卷积核中加入一个微型的神经网络来对感受野内的数据进行抽象,构造了一种能够增强模型对感受野内局部图块区分能力的结构,称为 Network In Network(NIN)。 卷积神经网络中的过滤器本质上是一个广义线性模型(generalized linear model,GLM),因此传统的卷积层隐式地假设…
Read more
1. 概述 Spatial Transformer Networks 一文提交于 2015/6,文章提出了一种对特征图进行空间变换的模块,称为 Spatial Transformer(ST)。该模块可以通过学习,对不同的特征图进行适当的变换,增强卷积神经网络对输入数据的空间不变性,从而提高网络性能。 文章指出,虽然 CNN 在图像识别上获得了很好的性能,但依然无法有效地维持输入数据的空间不…
Read more
1. 概述 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 一文提交于 2015/2,文章提出了一种通过对网络各层输入的每个小批量(mini-batch)进行标准化,来解决内部协变量偏移(internal covariate shift)的方法,称为批量标准…
Read more
1. 概述 Aggregated Residual Transformations for Deep Neural Networks 一文提交于 2016/11,文章通过对相同的变换进行聚合,得到一个简单的 block 架构,然后重复使用 block 构造了名为 ResNext 的网络架构。 文章借鉴了 VGG 和 ResNet(Figure 1 左图)构造网络的方式,使用相同结构进行堆叠…
Read more
1. 概述 Xception: Deep Learning with Depthwise Separable Convolutions 一文提交于 2016/10,文章受 Inception 启发,使用深度可分离卷积替换了 Inception module,构造了 Xception 网络架构,在 ImageNet 数据集上的性能略优于 Inception V3,在 JFT 数据集上的性能大幅优…
Read more
1. 概述 ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices 一文提交于 2017/7,文章应用 pointwise 分组卷积(group convolution)和通道混洗(channel shuffle),构建了一种非常高效的 CNN 架构,称为 ShuffleNet。 …
Read more
1. 概述 Squeeze-and-Excitation Networks 提交于 2017/9,文章利用卷积神经网络中通道之间的依赖关系,提出了名为 Squeeze-and-Excitation(SE) 的 block 结构,在引入只少量额外计算的条件下,大幅提高了网络的性能。文章构建了 SENet 的网络架构,ImageNet top-5 错误率仅为 2.251,在 ILSVRC 2017…
Read more
1. 概述 MnasNet: Platform-Aware Neural Architecture Search for Mobile 一文初次提交于 2018/7,文章提出了一种移动端神经架构搜索(mobile neural architecture search,MNAS)的方法,同时将模型的准确率和在真实设备上的延迟作为搜索的目标,以获得二者之间的平衡。文章还提出了一种分层搜索空间(fa…
Read more
1. 概述 Learning Transferable Architectures for Scalable Image Recognition 一文提交于 2017 年,文章给出一种在数据集上学习网络架构的方法,设计了易于迁移的 NASNet 搜索空间,首先在较小的数据集上通过搜索找到基础的层结构,再扩展到大数据集的问题上。文章在 CIFAR-10 数据集上找到了高效的卷积层结构,并用其构造…
Read more