随着人工智能技术的迅猛发展,大型语言模型(LLMs)在自然语言处理领域展现出前所未有的强大能力。这类模型能够通过微调快速适应各种下游任务,极大地推动了智能问答、文本生成、情感分析等多个应用方向的发展。然而,传统的全量微调方式由于参数庞大且计算需求高昂,给资源有限的环境带来了巨大挑战。为了提高微调效率并降低计算成本,研究者们纷纷探索参数高效微调(PEFT)方法,其中低秩适配(LoRA)技术因其优异性能和灵活性,成为当前的热点方案之一。 LoRA通过对权重矩阵的更新进行低秩分解,引入两个规模较小的矩阵进行参数更新,大幅减少了需要训练的参数量,从而实现高效微调。但现有LoRA及其变体普遍采用的是加法方式的权重更新,这种方式虽有效但在表现力上存在一定局限。
为此,印度理工学院康普尔分校的研究团队提出了创新性的低秩乘法适配技术(LoRMA),旨在突破传统加法更新的限制,利用矩阵乘法带来的丰富变换空间,实现更灵活、高效的模型适配。 LoRMA的核心思想是将权重更新由简单的加法转换为乘法形式,具体表现为用低秩矩阵的乘积对原始权重矩阵进行乘法调整。相较于传统的LoRA更新公式 W = W0 + α BA,LoRMA采用了 W = α (BA) W0 的形式,其中B和A为低秩矩阵,α是缩放因子。通过这种乘法更新,模型能够模拟旋转、缩放等更复杂的线性变换,提升权重调整的表达力。 但低秩乘法适配也面临诸多挑战。由于矩阵乘积的秩受限于参与乘法矩阵最小的秩,若不加限制,权重更新的表达能力容易受限于秩的瓶颈,导致模型性能受损。
另外,矩阵乘法的计算复杂度也可能带来推理效率下降的问题。此外,LoRA中通过初始化低秩矩阵为零来保证训练早期的稳定性,在LoRMA中则需要确保乘积矩阵初始表现为单位矩阵以维持训练稳定,这在低秩矩阵的乘积空间中难以直接实现。 针对上述问题,作者提出了两种创新的秩膨胀策略以增强模型能力,同时通过巧妙的操作顺序调整,使LoRMA的时间复杂度与LoRA相当。第一种是基于排列的秩膨胀,即对矩阵乘积后的结果行进行循环移位重排,通过重排矩阵元素来提高乘积矩阵的有效秩,并且保证梯度传递不受影响。该方法不仅提升了变换的维度自由度,还构建了更合理的初始化方案,使模型在微调起始阶段保持稳定。第二种是加性秩膨胀策略,即在乘法更新结果基础上添加单位矩阵,使总变换矩阵在初始时就接近于身份矩阵,显著提升表达力并维护训练早期的稳定性。
该策略灵感来自岭回归中的正则化思想,通过保留部分原始权重信息,实现更丰富的参数探索空间。 在广泛的自然语言理解(NLU)与生成(NLG)任务上,LoRMA进行了系统性的实证评估,涵盖从中小规模的RoBERTa和GPT-2模型,到数十亿参数的Gemma和LLaMA家族。实验结果表明,LoRMA不仅在多个任务中取得了与主流PEFT方法相当甚至更优的性能指标,还展现出更快的训练收敛速度,证明了乘法适配在模型高效微调中的巨大潜力。 值得关注的是LoRMA在训练收敛方面的表现,理论上,乘法形式的参数更新对权重矩阵的影响更为广泛,一次参数调整导致权重矩阵多个元素发生变化,从而使模型能够更快地适应目标任务。实验证明,在常见的CoLA任务和GLUE子任务中,LoRMA的训练损失下降更加迅速,Area Under the Curve(AUC)显著低于传统LoRA方法,间接印证了其高效的训练动态。 此外,消融实验深入分析了秩膨胀策略的重要性。
缺少秩膨胀的原生乘法更新受限于较低秩,导致性能大幅下降。而引入排列或加性秩膨胀后,训练过程中矩阵的有效秩稳定保持接近满秩水平,促使模型具备更强的适应能力和表达自由度。 另一方面,通过对比LoRA和LoRMA微调产生的权重变化矩阵,研究团队发现两者之间存在高度的相关性,这表明乘法适配不仅能捕捉到加法方式中学习到的权重更新,还通过更加丰富的矩阵变换扩展了参数空间。更重要的是,LoRMA产生的权重更新矩阵通常具有更高的秩,进一步体现了更复杂变换的内在潜力。 综上所述,低秩乘法适配技术作为一种新颖的参数高效微调方法,在兼顾计算效率的同时显著扩展了权重更新的表达能力。它突破了传统加法适配的局限,通过秩膨胀等创新策略实现了在保持训练稳定性的前提下,赋予模型更丰富的变换空间,有效提升了大型语言模型的微调性能和收敛速度。
未来,LoRMA有望与现有优秀LoRA变体如AutoLoRA、DyLoRA等结合,进一步提升泛化能力和自适应性,推动大型语言模型在更多复杂自然语言处理任务中的应用。随着计算架构和算法的不断进步,低秩乘法适配将在定制化语言模型快速部署和资源受限环境下的智能应用中发挥愈发重要的作用,助力人工智能迈向更加高效灵活的发展新时代。