随着人工智能在各行各业的广泛应用,性能和计算效率成为制约其进一步发展的关键因素之一。尤其是大型语言模型(LLM),虽然在语言理解和生成方面表现卓越,却面临着高昂的计算资源需求和使用成本。近日,来自魏茨曼科学研究所、英特尔实验室与d-Matrix的研究团队提出了一套创新算法,有望在保证质量不受损失的前提下,将AI模型的推理速度提升至2.8倍之多,为大型语言模型的高效使用带来了新的突破。传统的推理方式通常采用自回归模型逐步生成文本内容,这一过程速度受限于模型参数的庞大和计算资源的瓶颈。为了应对这一难题,业界曾引入了“猜测解码”(speculative decoding)技术,即通过先运行一套较小的“草稿模型”预测下一步生成结果,再由更大、更精确的目标模型验证并修正,从而加快整体生成速度。然而,这种方法存在明显弱点:草稿模型必须与目标模型拥有相近的词汇表,否则预测结果难以被接受,且每升级目标模型都要为草稿模型重新训练,增加了维护难度和成本。
此次新提出的算法创新性地解决了草稿模型与目标模型词汇表不匹配的限制,允许任何模型充当草稿角色,使得猜测解码技术的应用门槛大幅降低。研究团队设计了三种不同的算法策略来实现这一目标。第一种方法称为“词元级交集”(Token-Level-Intersection, TLI),其核心思想是分析两个模型的词汇重叠部分,草稿模型只生成目标模型词汇中存在的词元,从而提高预测成功率。通过该策略,推理速度实现了约1.7倍的提升。第二种方法被命名为“字符串级精确匹配”(String-Level Exact Match, SLEM),其机制更为细致,先将草稿模型生成的字符串转换为统一的中间格式文本,再由目标模型分词器重新编码以确保匹配。该方法尽管面临文本处理细节带来的微小差异挑战,通过引入启发式函数调节,极大提升了匹配接受率,在长文本生成任务中表现出最高可达2.8倍的加速效果。
第三种算法“字符串级拒绝采样”(String-Level Rejection Sampling, SLRS)进一步优化了字符串预测的概率计算,以增进草稿模型预测的接受率,但其计算复杂度较高,需要对词汇表进行专门设计调整,暂时尚未广泛实际应用。这三种算法的结合大幅简化了猜测解码技术的部署难度,目前它们已集成入Hugging Face的Transformers库中,开发者仅需做出极少的代码修改便能体验加速带来的效率红利。除了算法本身,研究人员还关注到模型词汇表越来越庞大的问题,例如Llama 4的词汇量达到约20万个词元,而实际使用中只有一部分词元频繁出现,这不仅浪费内存资源,也增加了推理延迟。团队正在探索词汇表精简技术,进一步降低模型运行负担。人工智能算力消耗巨大,尤其是在数据中心级别的运行环境中。降低推理延迟和计算需求,不仅使得大型模型更经济实用,也推动了AI技术在边缘设备甚至移动端的落地,扩大了技术普惠的可能性。
未来,结合高效算法与硬件发展,AI将实现更快速响应和更广泛应用。总的来看,这些新算法打破了以往猜测解码必须匹配词汇限定的瓶颈,为提升大型语言模型性能带来了新的契机。它们既保持了生成内容的完整性和准确性,又极大地提高了推理速度,降低了成本,促进了AI技术的普及和创新。对于研究者和开发者来说,这意味着使用和维护大型语言模型将更加便捷和高效。期待未来更多类似突破,推动人工智能迈向更智能、更高效的新时代。