Deep Learning Note: 3-1 正交化
构建机器学习应用的一大挑战是有众多的方案和选项可以选择和调整,例如在训练过程中就有很多超参数需要调优。在调优的过程中,需要明确进行什么样的调整,可以达到什么样的目的,将各个问题独立开来,在互不影响的情况下分别进行调优,逐个击破,正交化(Orthogonalization)地解决各个问题。 例如对于监督学习系统,通常需要通过调优,确保模型: 能够在代价函数上很好地拟合训练集 能够在代价函数上…
Read more
learn, build, evaluate
构建机器学习应用的一大挑战是有众多的方案和选项可以选择和调整,例如在训练过程中就有很多超参数需要调优。在调优的过程中,需要明确进行什么样的调整,可以达到什么样的目的,将各个问题独立开来,在互不影响的情况下分别进行调优,逐个击破,正交化(Orthogonalization)地解决各个问题。 例如对于监督学习系统,通常需要通过调优,确保模型: 能够在代价函数上很好地拟合训练集 能够在代价函数上…
Read more
批量标准化(Batch Normalization)是深度学习中的一个重要算法,它可以让网络更加强健,令网络对更大范围的参数都有较好的效果,使得超参数的搜索更加容易,也有助于训练更深的网络。 1. 标准化激活值 前文介绍了对输入特征进行标准化的方法,标准化有助于提高学习速度。在神经网络中,对其中各层的激活值进行标准化,也有利于提高下一层参数的学习速度,这就是批量标准化所做的。例如对第 2 …
Read more
1. 调优过程 神经网络的训练涉及众多的超参数,按照调整的优先级,可以划分如下: 第一优先:学习率 $\alpha$。 第二优先:动量梯度下降的参数 $\beta$(通常取 $0.9$),网络中隐藏单元的数量,小批量梯度下降中小批量的大小等。 第三优先:神经网络的层数、学习率衰减。 对于 Adam 优化算法中的超参数,通常会直接使用默认值($\beta_1 = 0.9$,$\beta_2 …
Read more
1. 小批量梯度下降 前文 给出的向量化计算 $m$ 个样本的梯度下降和反向传播的方法,通过将所有 $m$ 个样本水平叠加,得到: \begin{equation} X = \begin{bmatrix}x^{(1)} & x^{(2)} &…&x^{(m)} \end{bmatrix} \end{equation} 使用 $X$ 一次性计算全部样本…
Read more