论文:为什么学习率可以转移? talkingdev • 2024-03-05 932178 views 一篇理论论文试图解释MuP超参数转移的成功。其作者发现训练损失Hessian矩阵的最大特征值与网络的宽度和深度无关。 核心要点 MuP超参数转移成功的原因被解释了。 训练损失Hessian矩阵的最大特征值与网络的宽度和深度无关。 该研究为深度学习超参数转移提供了理论依据。 Read more > 查看原文