arxiv A Loss Curvature Perspective on Training Instability in Deep Learning

名称
A Loss Curvature Perspective on Training Instability in Deep Learning
首页
https://yiyibooks.cn/arxiv/2110.04369v1/index.html
原始地址
https://arxiv.org/pdf/2110.04369
描述
在这项工作中,我们研究了损失 Hessian 在许多分类任务中的演变,以了解损失曲率对训练动态的影响。虽然之前的工作重点关注不同的学习率如何影响训练期间观察到的 Hessian 损失,但我们还分析了模型初始化、架构选择和常见训练启发式(例如梯度裁剪和学习率预热)的影响。我们的结果表明,成功的模型和超参数选择允许早期优化轨迹避免或导航出高曲率区域并进入可容忍更高学习率的平坦区域 ...