随着人工智能尤其是大语言模型(LLM)的广泛应用,如何高效利用硬件资源进行模型推理成为技术发展的关键。当前,推理计算往往依赖NVIDIA的CUDA、AMD的ROCm或Intel的oneAPI等生态系统,虽然功能强大,但其复杂的依赖关系和闭源特性给开发者带来极大挑战。尤其是在开源环境下,维护和优化这些繁复的计算栈几乎成为一场噩梦。因此,寻找一个简洁且高效的开源计算框架成为业界关注的焦点。本文聚焦于基于开源Vulkan图形和计算API的LLM性能基准测试,通过分析硬件适配、驱动支持和生态整合的现状,为理解Vulkan在推理领域的潜力提供有价值参考。 Vulkan作为一个跨平台、低开销的图形与计算API,相较于传统的OpenGL或DirectX具有更好的可扩展性和底层控制能力。
其设计理念使得开发者可以较为直接地操作GPU硬件,从而实现更高效的计算。但Vulkan本身的抽象程度低,编程复杂度较高,缺乏足够的生态支持曾经是其推广的障碍。近日,随着社区及厂商投入的加深,Vulkan的计算扩展不断完善,尤其是在大规模矩阵乘法(matmul)加速方面,通过添加合作矩阵(cooperative matrix)等扩展,逐渐缩小了与传统CUDA栈的性能差距。 在NVIDIA阵营,虽然其专有的Vulkan驱动已高度优化,但因闭源限制,社区对其内部机制难以深入调试和改进。值得关注的是NVK项目,这是一款面向NVIDIA显卡的开源Vulkan驱动,目的是填补功能空白,缩小与官方驱动的差距。社区开发者如Karol Herbst和Dave Airlie不断推动支持VK_KHR_cooperative_matrix以及更先进的VK_NV_cooperative_matrix2扩展,这些都是提升高性能矩阵运算效率的关键所在。
虽然目前NVK仍处于起步阶段,距离官方驱动仍有明显差距,但随着持续优化,未来有望实现高效且完全开源的NVIDIA Vulkan驱动,极大降低用户和开发者的门槛。 AMD方面,radv驱动采用开源策略,已支持部分Vulkan视频解码和计算扩展,有望成为ROCm的简洁替代方案。基于radv的协作矩阵支持被视为提升性能的关键路径。Benchmarks显示,radv在Token Generation等推理环节表现优于ROCm,但在Prompt Processing阶段略显不足。若能进一步完善coopmat2扩展支持,AMD开源驱动未来有可能超越ROCm,提供更为轻量、方便维护和高度兼容的推理基础。 英特尔方面,依然在积极完善基于SYCL和Vulkan的支持,但目前生态尚不成熟,运行稳定性和性能都存在波动。
用户社区期待英特尔加快推进相关生态布局,推出更具竞争力的驱动和开发环境。曾有用户尝试借助A770显卡的MMA加速器在Vulkan下实现推理,获得了初步成效,这为英特尔显卡进军LLM推理市场注入了一丝希望。 在LLM本身的实现层面,llama.cpp项目因其简洁与高效而受到广泛认可。其生态衍生版本如ramalama,进一步优化了容器化部署和算子融合,为Vulkan上的推理提供了基础框架。尽管目前llama.cpp基于C++,社区对Rust移植版抱有期待,因为Rust在安全性和性能调优方面具有优势。推理任务中不同阶段的性能表现也被细致划分,Prompt Processing阶段强调大规模矩阵运算,Token Generation则更依赖操作同步和逻辑调度。
Vulkan通过扩展创造了更多操作融合的可能性,从而理论上能优化整体效率。 针对推理性能的详细基准测试,一位Linux图形领域专家使用多款硬件装置开展了多样化测试,涵盖了AMD Ryzen平台上的NVIDIA RTX5080、RTX6000 Ada及Intel A770显卡,同时验证了AMD RX7900XT的表现。测试使用的是随机选取的Qwen3-8B-GGUF模型版本。结果显示,当前专有CUDA由于支持图计算图(CUDA Graphs)和高度融合算子,依然在某些阶段领先。但Vulkan凭借其开放性和灵活性,依然展现出极大潜力。AMD的radv驱动已在某些计算环节超越了ROCm,而NVIDIA的开源驱动NVK在完成更多编译器优化后,有望快速接近官方驱动水平。
这场基于开源技术的性能竞赛不仅推动了显卡驱动的技术演进,也助力全行业摆脱对封闭生态的依赖,促进技术民主化。鉴于显卡驱动和推理模型部署的复杂性,开发者越来越期待像Vulkan这样的统一跨平台API能简化整个堆栈,减少容器层级和不必要的依赖。尤其是面向广大开源用户和研究者,能够以开放协议高效利用多品牌硬件,将激励人工智能推理技术在本地端和边缘设备上得到更广泛应用。 总结来看,开源Vulkan正处于快速发展期,正在从功能空白逐步填补到性能逼近非开源传统标准,尤其是在LLM推理领域。社区和厂商的协同推动为其带来了前所未有的机会,但仍需克服驱动层面的多样性和优化挑战。未来通过更多合作矩阵扩展支持、编译器优化和生态适配,Vulkan有望成为多Vendor GPU计算的桥头堡。
与传统专有计算栈相比,它的开放透明和高度灵活性将为下一个人工智能算力革命打下坚实基础。持续关注和参与相关项目,将助力整个行业迈向真正的异构计算自由时代。