随着大型语言模型(LLM)在自然语言处理领域的广泛应用,提升推理效率和优化资源分配成为了业界关注的焦点。在LLM推理过程中,普遍划分为两个核心阶段:Prefill与Decode。Prefill阶段以并行处理提示(prompt)中的所有输入token为主,计算密集型,消耗大量计算资源;Decode阶段则以逐生成token为核心,侧重于内存访问和带宽消耗。近年来,业界提出通过Prefill-Decode的分离调度来提高整体性能,即将不同阶段分配给独立的工作节点(Workers),以减少阶段之间的干扰,实现硬件资源的更高效利用。核心问题聚焦于Prefill到Decode节点的比例该如何设定。是否需要动态调整以应对负载变化,还是采用固定比例即可满足绝大多数场景需求?这成为当前模型推理架构设计的重要议题。
Prefill-Decode的分工由DistServe团队首次提出,其研究展示了在特定工作负载下,以2:1的Ratio分配Prefill与Decode节点能够同时满足总响应时间(TTFT)与令牌吞吐量(TPOT)目标。然而实际应用中的多样负载和不同规模的推理请求对比例选择带来了挑战。例如,DeepSeek部署中的推理工作负载以长输出为主,反映出Decode节点需求更为旺盛,其实际比例设为了Prefill:Decode = 1:3。通过将更多资源分配给Decode,降低了单个令牌生成的延迟,保障了流畅的令牌输出体验。 动态调整方案,如NVIDIA基于服务水平协议(SLA)和负载监控的比率规划机制,能够实时根据负载状况调整Prefill与Decode比例,以追求最优运行效果。然而,这类动态策略往往依赖自动扩缩容机制,增加了系统管理和调度的复杂度。
系统设计者因此面临平衡:是否值得引入复杂的动态策略,还是选用相对简洁、前置定义好的固定比例就足够?为了回答这一疑问,benchmark测试被设计,以全面评估固定与动态比例在不同负载类型和并发规模下的比较表现。 测试覆盖了三种典型工作负载类型。Prefill-heavy负载特点是输入长度远大于输出,如文本摘要任务,强调快速解码输入以缩短整体验证延迟。Decode-heavy负载则是输出文本长度远大于输入,典型如复杂推理任务,要求输出流畅且延迟低。平衡负载则代表输入输出量级相当的场景,例如机器翻译或文本复述。测试指标涵盖首次响应时间(TTFT)、令牌间延迟(ITL)以及整体吞吐量,兼顾了延迟和计算效率两个维度。
在Prefill-heavy场景下,低并发时1:3比例配置展现了最优的令牌间延迟和吞吐性能,但在首次响应时间方面表现稍逊。反观3:1和2:2比例配置因为Prefill资源丰富,能够更快地完成提示处理,提升TTFT表现。但3:1配置因Decode端资源不足,容易形成瓶颈,堆积排队现象使ITL恶化、吞吐受限。高并发时,1:3依旧维持领先,因充裕的Decode资源有效减少延迟等待,促进整体吞吐提升。基于实际应用中摘要用户对首次响应容忍度较高,1:3成为更佳选择,保障流畅高效的令牌生成体验,同时兼顾成本效益。 Decode-heavy场景则对Decode节点的资源需求更加强烈。
在低并发下,配置1:3比例再次实现了最优令牌间延迟与吞吐标准,虽然首次响应延迟较高但对用户体验影响较小。相比之下,3:1或2:2虽然在初次响应上有提升,却在令牌流畅性和系统吞吐率上明显落后。在高并发情况下,1:3甚至进一步拉开差距,显著优于其他配置。鉴于推理类任务对连续、稳定的流式输出极为依赖,推荐定位于1:3比例,以满足较紧张的令牌间延迟SLO需求。 对于平衡负载,低并发条件下1:1比率显示了更为谐调的性能曲线,兼顾了TTFT及ITL的平衡,相较于1:3在首次响应时间上略有优势,且吞吐量差异不大。然而随着并发翻升,1:1配置因Decode资源相对不足,TTFT显著恶化。
此时1:3配置凭借更强的Decode能力展现出更优的规模化效能与吞吐能力。综合来看,尽管1:1适合轻量和低负载场景,1:3因具有更好扩展性和吞吐表现,成为通用且稳妥的默认选择。 整体benchmark结果透露出一个重要结论:固定的Prefill-Decode比例设计在多样化工作负载和并发场景下均可提供稳定且强劲的性能表现,大幅简化了运行时的调度复杂性。尤其是在基础负载特征明确、变化波动相对有限的真实生产环境中,采用固定比例策略结合标准自动扩缩容即可达到和复杂动态规划近似或相当的效果。动态调整仍然具有灵活优势,特别是在面对高度不可预测和剧烈波动的负载时。但鉴于动态方案涉及的技术复杂度和运维成本,固定比例策略作为基础配置具备显著的实践价值和推广潜力。
当前benchmark研究也存在一定局限。例如,并未涵盖全部可能的比例配置,仅检验了3:1、2:2与1:3三种典型组合,并未深入挖掘更细致、更加适应个性化负载的参数空间。更重要的是,研究未直接对比动态比例调整方案与固定比例方案在整体性能上的优劣差异。未来深入探讨如何通过自动化手段高效选取最优固定比例,以及将多层次模型并行策略(数据并行等)与Prefill-Decode分离相结合,也将助力推动LLM推理架构的发展。 综上所述,Prefill-Decode比例的合理设计是提升分布式LLM推理系统性能的关键。通过合理选择固定比例,可简化调度流程,降低系统复杂度,同时保证对多类典型任务的良好兼容性和性能表现。
研发人员和系统架构师均可依赖这一实践指导,针对具体业务需求和硬件资源,灵活调整比例,以实现最优的响应速度和成本效益平衡。随着技术演进和更多实测经验的积累,未来调度策略将更趋成熟,为多样化、规模化的LLM推理提供坚实支撑。 。