Tag Archive: Hyper Parameter

Deep Learning Note: 2-5 超参数调优

1. 调优过程   神经网络的训练涉及众多的超参数,按照调整的优先级,可以划分如下: 第一优先:学习率 $\alpha$。 第二优先:动量梯度下降的参数 $\beta$(通常取 $0.9$),网络中隐藏单元的数量,小批量梯度下降中小批量的大小等。 第三优先:神经网络的层数、学习率衰减。   对于 Adam 优化算法中的超参数,通常会直接使用默认值($\beta_1 = 0.9$,$\beta_2 …
Read more