[Reading] Searching for MobileNetV3
1. 概述 Searching for MobileNetV3 一文公布于 2019 年,提出了称为 MobileNetV3 的新一代 MobileNets,进一步提高了准确率,并降低了计算量。 MobileNetV3 在前代 MobileNets 的基础上,在基本构造模块中引入了 Squeeze-and-Excite(SE)。文章通过网络搜索得到了网络的基本结构,并进行了进一步微调。针对…
Read more
learn, build, evaluate
1. 概述 Searching for MobileNetV3 一文公布于 2019 年,提出了称为 MobileNetV3 的新一代 MobileNets,进一步提高了准确率,并降低了计算量。 MobileNetV3 在前代 MobileNets 的基础上,在基本构造模块中引入了 Squeeze-and-Excite(SE)。文章通过网络搜索得到了网络的基本结构,并进行了进一步微调。针对…
Read more
1. 概述 MobileNetV2: Inverted Residuals and Linear Bottlenecks 一文提交于 2018 年,文章提出了一种新的移动端网络架构,称为 MobileNetV2,提高了移动端模型在多个任务上的 SOTA 性能。对于移动端的目标检测任务,文章提出了称为 SSDLite 的全新框架。此外文章还展示称为 Mobile DeepLabv3 的在移动端构…
Read more
1. 概述 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 一文发表于 2017 年,文章提出了一种适合移动端和嵌入式平台的高效卷积网络,称为 MobbileNets,并引入了两个全局超参数,用于调整模型体积,在延迟和准确率之间进行取舍。 构建小型模型的方法主要有两种:一种…
Read more
1. 概述 EfficientNet: Rethinking Model Scaling for Convolutional Neural Network 一文提交于 2019 年,它提出了一种系统化地对模型进行缩放的方法,并通过神经架构搜索(NAS,Neural Architecture Search)得到了一系列称为 EfficientNet 的网络。EfficientNet 系列网络在达…
Read more
在 WordPress 上传文件时,默认的上传文件上限只有 2MB,可以通过下述方式调整上限。 1. 修改 php.ini 首先修改 php.ini 中关于上传文件相关的配置,php.ini 的位置可以通过 phpinfo 获得,例如 /etc/php/7.4/fpm/php.ini,修改该文件: nano /etc/php/7.4/fpm/php.ini 在其中搜索并修改以下配置: up…
Read more
1. “行动器-评判器”方法 直接学习策略参数与学习价值函数并不是互斥的,二者可以结合起来:参数化策略作为行动器(actor)选择动作,价值函数作为评判器(critic)对行动器选择的动作进行评价。 对于策略参数的更新公式 \begin{equation} \boldsymbol{\mathrm{\theta}}_{t+1} \doteq \boldsymbol{\mathrm{\…
Read more
策略梯度定理给出了计算策略梯度的简单方法 \begin{equation} \nabla r(\pi) = \sum_{s} \mu_\pi(s) \sum_{a} \nabla \pi(a|s, \boldsymbol{\mathrm{\theta}}) q_{\pi}(s, a) \tag{1} \end{equation} 其中的 $\sum_{s} \mu_\pi(s)$ 需要对所有状…
Read more
1. 学习策略的目标 为了改善参数化策略,首先要确定优化目标。强化学习的目标是最大化长期收益,更具体地,分幕式任务的目标是最大化收益序列构成的回报 \begin{equation} G_t = \sum_{t=0}^T R_{t} \tag{1} \end{equation} 对于持续性任务,为了使回报有限而引入折扣,目标是最大化折后回报 \begin{equation} G_t = \sum…
Read more
1. 直接学习策略 前面介绍的学习策略的方法都需要先学习动作价值函数,基于广义策略迭代来改善策略。学习策略的另一种方法是通过函数逼近来表示和学习参数化的策略,此时价值函数可以用于学习策略的参数,但其对于动作选择就不是必需的了。 在参数化策略中,使用 $\boldsymbol{\mathrm{\theta}} \in \mathbb{R}^{d’}$ 表示策略的参数向量,把在 $…
Read more
1. 折扣的问题 在前文中给出了分幕式和持续性任务的目标,对于持续性任务,通过对未来的收益进行折扣来得到有限的回报,并通过折扣率来平衡短期的收益和长期的回报。 考虑如图 1 所示的 MDP,在初始状态 $S$ 可以选择向左或者向右移动,之后的一系列确定的状态和动作,直到返回状态 $S$,然后再次面临选择。从 $S$ 向左移动到第一个状态会获得 $+1$ 的收益,从右边返回状态 $S$ 会获…
Read more