在深度学习领域,尤其是大型语言模型的预训练过程中,优化器的选择与调优成为了决定训练效率和最终模型性能的关键因素之一。传统上,AdamW作为一种热门的优化器,长期占据着主导地位。然而,近期研究表明,存在多种优化器在一定条件下能带来显著的训练加速和性能提升。这背后的原因与细节,值得从业者和研究者深入理解和关注。AdamW之所以被广泛采用,部分原因在于它稳定、高效,同时易于参数调节。但一些最新的实验和方法论挑战了这一现状,提出了多款新优化器在某些模型规模和数据量比例下,能够实现1.4倍甚至近2倍的训练速度提升。
不过该领域也存在一些历史遗留的问题,主要体现在两个方面。首先,不同优化器之间的超参数设置和搜索策略往往不对等,导致结果无法公允比较。其次,测试和评估的时间点和方式常常曲解了实际性能,影响了优化器的实际认可度。基于这些挑战,Kaiyue Wen等研究人员最近展开了一项系统性研究,他们选择了十款深度学习优化器,涵盖从1亿到12亿参数规模的多种模型,针对数据与模型的比例进行了多维度实验设计。这种设计遵循了一个重要原则,即模型规模和训练数据量的比例必须合理,以更真实地反映不同情况下优化器的表现。研究证明,在优化器对比过程中,必须针对每种优化器分别进行充分的超参数调优。
盲目沿用其他优化器的参数配置,会造成明显的性能折损,使得实验结果失真。此外,评估最好在训练的最终阶段进行,因为许多优化器的性能随训练过程中的调整策略发生变化,早期的中间检查点很可能不能代表最终的训练效果。通过严谨的试验,研究团队发现,所有表现最快的优化器均采用了矩阵级的预调节方法,即在梯度调整中使用矩阵乘法操作,而非简单的逐元素标量操作。此类预调节方法极大提升了梯度的校正效率,辅以合理的学习率衰减策略,使得模型能够更快收敛。尤其是在模型规模较小的时候,这些基于矩阵的优化器表现出1.4倍的速度优势。然而,随着模型规模从1亿级参数增长至12亿级别,这一速度优势逐步下降至仅为1.1倍。
也就是说,在大规模模型上,传统的AdamW优化器依然具有相当的竞争力。为什么会出现这样的趋势呢?从理论和实践角度看,矩阵预调节方法的计算复杂度随着模型参数数目的增加迅速攀升,导致其相对速度优势被稀释。同时,硬件资源、内存带宽和并行计算效率也成为瓶颈。在实际深度学习开发中,选择合适的优化器不仅要结合训练任务的模型规模、数据量,还要综合考虑超参数调优成本、硬件资源约束及训练时间预算。例如对于小规模任务或早期研发原型,基于矩阵的优化器能够显著节省时间和资源,提高研发效率。与此同时,在超大规模训练环境中,经验丰富的工程师或研究者往往更倾向于继续采用经过充分验证的AdamW或其变种,确保模型训练的稳定性和性能。
此外,优化器性能的评估建议采用终点测试,即完成既定训练计划后,再进行性能评估,这样才能准确反映优化器带来的实际效益。中途评估往往会受到学习率调度、梯度震荡等因素影响,难以反映真实效果,使得优化器排名可能出现变动。调研的另一个重要发现是,优化器设计应尽可能结合硬件架构特性,利用矩阵运算加速,同时避免因复杂度增加带来的资源消耗。未来,随着硬件计算能力的提升,矩阵预调节优化器的优势有望在更大规模的模型训练中得到更好发挥。总结来说,深度预训练优化器的选择和使用,依赖于对训练规模、数据特性以及硬件瓶颈的综合考量。虽然新兴的矩阵型优化器在某些规模下展现了超越传统AdamW的训练速度,但其优势会随着模型增大而缩小。
科学合理的超参数调优流程以及公平、全面的评估体系,是优化器公平比较和实际应用的必要条件。对于机器学习研发者而言,学习并理解各种优化器的理论基础与实践表现,掌握因项目具体情况而异的优化策略,才能在竞争激烈的商业和科研环境中保持领先。未来优化器研究仍将持续向更高效、更智能的方向演进,结合硬件发展实现算法与体系结构的深度融合,推动人工智能模型训练进入新的高速时代。 。