引言 在生成式人工智能和大语言模型快速普及的背景下,计算需求不仅体现在算力规模,还体现在功耗、内存带宽利用率与平台可编程性上。FuriosaAI,这家成立于 2017 年的韩国初创公司,提出了以张量收缩为核心的处理器架构 Tensor Contraction Processor(TCP),并将其商业化为 RNGD(Renegade)加速卡与 NXT RNGD Server。公司宣称通过硬件与软件的协同设计,在推理场景下实现比传统 GPU 更高的性能密度与能效,吸引了包括 Kakao、LG AI Research 以及 OpenAI 韩国团队等客户的关注。本文将深入解读 FuriosaAI 的技术路线、RNGD 的规格与对比数据、软件生态和产业化路径,并分析其在进一步挑战英伟达主导地位时面临的机遇与风险。 FuriosaAI 的发展脉络与战略定位 FuriosaAI 由前三星与 AMD 工程师 June Paik 创立,早期在 2021 年推出了基于 14nm 制程的第一代 NPU,并在 MLPerf 等基准测试中取得一定成绩,吸引本土云厂商的采用。随着大模型时代的到来,公司开启三年研发攻关,将目标瞄准生成式 AI 与 LLM 推理,研发出第二代 RNGD 芯片,在台积电 5nm 制程下制造并进入客户样片阶段。
与面向通用训练的大规模 GPU 不同,RNGD 明确以推理和实时生成为主要竞争场景,强调性能、能效与可编程性的均衡。 RNGD 与 TCP 的硬件指标 每块 RNGD PCIe 加速卡配备 48GB HBM3,单卡外部内存带宽为 1.5TB/s,FP8 峰值算力可达 512 TFLOPS,最大功耗为 180W。基于这些设计,FuriosaAI 将焦点放在单位瓦特、单位机架功率下的吞吐与延迟表现。公司还推出了面向整机客户的 NXT RNGD Server,单机配备八块 RNGD 卡,合计 384GB HBM3、12TB/s 总带宽、4 PFLOPS(FP8),整机热设计功耗为 3kW。这样的功耗与性能配置使得在常见的每机架功率上限(例如 15kW)内能够部署更多推理算力,从而提高 tokens per rack 的指标。 张量收缩为何能成为基础指令级原语 FuriosaAI 的核心主张是将"张量收缩(tensor contraction)"作为基础计算原语,而不是以传统 GPU 的矩阵乘法为最低层次的构建块。
张量收缩描述了在更高维空间对张量执行收缩操作的模式,这类操作可以在深度学习中自然表达许多多维卷积、注意力机制与复杂张量运算。公司认为将硬件架构抬高到面向张量收缩的抽象水平,有助于减少数据在芯片与外部内存间的往返,从而降低能耗并提高利用率。 在 TCP 架构中,关键技术点包括更具可预测性的片上数据复用策略与用于高吞吐访问的网状电路交换取数网络。FuriosaAI 的技术团队指出,从 DRAM 到计算单元的数据传输消耗要比实际算术运算高出很多倍,因此最有效的优化方向是最大限度地在片上复用权重与中间数据,避免不必要的外部内存访问。通过硬件与编译器的协同,张量可以按照可重复、可预测的片上分块策略被复用多次,计算单元的利用率因此得到显著提升。 性能与能效的比较视角 FuriosaAI 宣称在特定大型语言模型的推理测试中,RNGD 在整体吞吐或每瓦性能上比常见的 Nvidia H100 GPU 高出约 3 倍。
需要指出的是,这类比较通常依赖特定模型、批量大小、量化精度(例如 FP8)与部署配置的组合。官方给出的对比中,H100 的常见规格为 80GB HBM2、2TB/s 带宽与高达 1513 TFLOPS 的峰值(FP8 或其他精度取决于厂商表述),TDP 在 PCIe 版约 350W、SXM 版可达 700W。相比之下,RNGD 的单卡功耗仅 180W,而在每机架功率受限的场景下,低功耗高密度带来的 tokens per rack 提升,成为 FuriosaAI 强调的差异化卖点。 需要强调的是,峰值 TFLOPS 并不能直接等同于实际推理吞吐,尤其是当内存带宽、数据移动开销与模型层结构对性能影响显著时。因此 FuriosaAI 将架构优势、内存带宽利用率与软件优化作为其竞争论据,而客户测试与第三方验证将是检验真实效能的关键。 软件栈、兼容性与开发者体验 硬件再优秀也离不开生态与开发工具的支撑。
FuriosaAI 在软件层面提供了与 PyTorch 的即时编译器(JIT)接口,支持 OpenAI 兼容的 API,用于模型部署与服务化;同时声称对 Kubernetes 友好,并能作为开源 vLLM 框架的替代部署方案。对于需要极低延迟的专业用户,公司也开放了低级别的 API,允许对专有模型进行深度优化。 这样的策略体现了两个目标:一是降低迁移成本,通过兼容主流框架让开发者更容易将现有模型移植到 RNGD 平台上;二是通过底层 API 提供更细粒度的性能调优能力,以便对关键路径进行特殊优化。成功的关键在于编译器能够把高阶的张量收缩表达映射到片上内存布局与取数网络上,并自动优化数据复用与通信模式,最终在运行时实现高利用率与低延迟。 客户试验与早期验证 FuriosaAI 已披露若干客户测试与试验案例。LG AI Research 在 EXAONE 模型测试中得出 RNGD 在单机 tokens per rack 指标上比之前基于 GPU 的解决方案高约 3.5 倍。
OpenAI 韩国团队也在公司展区用 gpt-oss 120B 模型进行了示范运行,社交媒体上相关人员对结果表示肯定。国内云厂商 Kakao 曾在 FuriosaAI 的早期 NPU 上完成视觉 AI 的部署,这为公司在本地市场的初步落地提供了基础。 需要强调的是,这些结果多数来自客户测试或公司披露,行业内仍期待更多第三方基准测试与长期稳定性验证,特别是在多卡跨节点协同、模型精度保留、弹性伸缩与运维便利性方面的实际表现。 商业化进程与资本支持 据报道,FuriosaAI 在 2025 年后期完成了 1.25 亿美元的 C 轮桥接融资,使得累计融资规模达 2.46 亿美元。公司在硅片设计、编译器与系统整合方面招揽了多位资深人才,包括来自 KAIST 的并行系统专家以及曾任三星高管的芯片专家,旨在加速芯片迭代与量产准备。FuriosaAI 的市场策略强调与少数关键战略客户达成确定性设计赢单,而非短期内追求大规模产量,从而在早期稳固技术验证与商业部署。
竞争格局与差异化路径 面向 AI 推理的硬件市场当前被以英伟达为代表的通用 GPU 生态主导,但市场也在寻求更高的能效比与成本效益,尤其是在大规模推理服务与边缘部署场景。FuriosaAI 的切入点是通过专用化架构和软件协同来缩小数据移动带来的能耗与延迟开销,从而在推理场景下实现更高的 tokens 每瓦、每机架密度与运维成本节省。 不过,挑战也显而易见。首先是生态成熟度。英伟达构建了完整的开发工具链、模型优化流水线、第三方库与云服务集成,且在训练与推理两端都拥有广泛部署案例。FuriosaAI 必须在模型兼容性、迁移工具、长期性能稳定性与运维工具上迅速补强,才能让客户在迁移决策中权衡非技术因素。
其次是规模化生产与供应链。虽然 RNGD 在 5nm 制程和 HBM3 存储上具备先进性,但在大规模供货、长期可用的芯片良率以及与服务器厂商的合作方面,需要时间与资本投入。 此外,硬件专用化带来的灵活性限制也需权衡。针对推理优化的架构在训练场景或部分非典型模型上可能无法表现出相同优势,因此客户往往需要在训练云和推理云之间建立混合部署策略,这增加了运维的复杂度与成本考量。 未来展望与行业影响 若 FuriosaAI 能在 2026 年开始放量生产 RNGD 并稳步拓展几个关键客户的设计赢单,其影响将不仅限于单一产品竞争力。高能效与高密度的推理平台将改变数据中心在机架规划、冷却与电力分配方面的设计理念,使得在相同比例的机架与电力预算下可提供更多服务容量。
这对于提供大规模实时生成服务的云厂商与 AI 服务提供商具有直接经济诱因。 同时,FuriosaAI 的张量收缩理念也可能推动更多硬件厂商在基础计算原语上进行创新,形成多样化的架构流派,促成生态层面的演进。更高层次的张量抽象若能被编译器与主流框架良好支持,将有助于模型开发者将硬件优势转化为实际应用收益。 结语 FuriosaAI 的 RNGD 与 TCP 架构代表了 AI 推理领域内一次有意义的工程与架构尝试。通过将张量收缩作为基础原语、结合片上复用与高吞吐取数网络,并配套编译器与 PyTorch 的兼容工具,公司试图在推理场景下获得显著的能效与密度优势。早期客户测试与融资显示出市场的兴趣与认可,但真正的挑战是建立起与主流生态相匹配的软件工具链、在生产与供应上实现规模化,并用第三方基准与长期运行数据证明其在多样化工作负载下的稳定性与经济性。
对于希望降低推理成本、提高机架吞吐的云厂商与大规模服务提供者而言,像 FuriosaAI 这样的专用化方案提供了值得尝试的路径。而对于整个平台生态,竞争的加剧可能反过来推动更多软硬件协同创新,最终让 AI 推理走向更高的能效与更低的总拥有成本。未来几年内,观察 RNGD 在实际生产环境与跨厂商生态中的表现,将是衡量其能否真正撼动英伟达主导地位的关键风向标。 。