在人工智能飞速发展的当下,训练大型语言模型和深度神经网络所需的计算资源和能耗成为工业界与学术界的核心痛点。很多人把问题归咎于模型规模和算力需求,但真正限制效率的一个重要根源来自六十多年前确立的冯·诺依曼架构。该架构将计算单元与存储单元分离,尽管在通用计算场景下表现优越,但在大量重复且数据访问密集的 AI 工作负载面前,却引发了严重的数据传输瓶颈,从而降低了实际能效和吞吐量。 冯·诺依曼架构与 AI 的天然张力 冯·诺依曼架构的优势在于灵活性和通用性。把处理器、控制器和存储独立设计,可以在不同任务之间快速切换,便于模块化升级与通用软件生态的演进。然而,深度学习推理与训练的基本工作模式却与通用计算截然不同。
神经网络在推理阶段需要反复读取大量静态的权重(weights),并用相对简单的大量矩阵乘加运算(MAC)对输入数据进行逐层传播。计算本身虽然规模大,但每次运算对内存访问的依赖更强,导致处理器经常因为等待内存数据而空闲。 历史上处理器与内存的性能增长并非同步。处理器计算能力与本地缓存的速度提升远快于远端内存(如 DRAM 或 GPU 间共享内存)的访问速度与能效优化。物理上,从内存将比特移动到处理器需要驱动导线的充放电,能耗与线长、寄生电容成正比,距离越长、传输越频繁,整体能耗和延迟就越高。在训练参数数量达到亿级、十亿级甚至更高时,频繁的跨层内存传输把能耗的主要部分"耗"在了数据搬运上,而非实际的算术运算。
数据迁移的双重成本:数量与距离 AI 工作负载中,模型参数的总量和这些参数存储的位置共同决定了数据传输的开销。大量参数意味着必须使用更高容量但更远端的存储,比如多块 GPU 之间通过高速互联访问对方的显存,或者将参数保存在主内存中并按需调取。每次前向或后向传播都需要将这些权重加载到计算单元,完成计算后再将中间结果写回,从而产生巨量的内存带宽需求和能耗。 此外,迁移距离越远,每次数据传输的能耗和延迟也越高。芯片内部的片上缓存(SRAM)能以更低能耗实现高速访问,但容量有限;而 DRAM、主存甚至跨机网络的带宽和延迟与能耗都不利于频繁的大规模访问。这种"数量大且距离远"的双重负担正是冯·诺依曼瓶颈在 AI 领域体现得最明显的地方。
打破瓶颈的两条主线:缩短距离与重构架构 应对冯·诺依曼瓶颈的策略可分为两类:一种是缩短数据移动的物理或逻辑距离,另一种是重构计算架构,把计算尽量移近或嵌入到存储之中。业界在这两条路线上都投入了大量研发资源。 在缩短距离方面,芯片协同封装(co-packaged optics)与高带宽片间互联成为热门方向。通过把光子链路或高密度波导直接集成到封装或硅互联层边缘,可以将传统的电信号长距离传输改为低能耗高带宽的光传输,从而大幅提升芯片间和板间的数据带宽密度,降低长距离数据移动的能耗与延迟。IBM 等机构展示的聚合光波导和光互联方案,正是为大型模型训练中跨芯片权重同步与分发问题提供可伸缩的带宽支持。 在重构计算方面,行业主要推动两类技术:近内存计算(near-memory computing)和内存近端计算/原位计算(in-memory computing、computational memory)。
近内存计算通过把更多的可重写本地存储(如片上 SRAM)与处理核心配对,减少对远端 DRAM 的访问频次。尽管这种方式仍基于数字逻辑,但通过大幅增加核心邻近的本地存储容量,可以以更低延迟和更高能效支持大模型的推理和部分训练任务。AIU NorthPole 等芯片就是这一思想的具体实现,通过大量核与本地 SRAM 配置,实现对特定语言模型推理显著加速和能耗下降。 内存近端计算则走得更激进:把计算直接嵌入到存储器的物理属性中,例如利用电阻、相变材料的物理响应来并行完成向量乘加之类的操作。相变存储(PCM)、电阻式 RAM(RRAM)、自旋转矩磁性 RAM(STT-MRAM)等阻性或相变存储器件在模拟域内可表现为可调的电阻值,能被用来表示网络权重。当输入电压信号在存储阵列内经过这些阻性元件时,电流的加权求和可以在阵列级别上并行完成,从而把大量数据移动和乘加运算"合二为一"。
由于数据不需频繁离开存储阵列,内存近端计算在理论上能显著降低数据传输能耗,提升吞吐量。 模拟与数字的权衡:精度、耐久性与系统集成 尽管内存近端计算展现出诱人的能效潜力,但在实践中面临一系列现实挑战。首先是数值精度。很多模拟存储器件在写入阻值和读取时会有噪声和非线性变化,难以直接匹配传统 32 位或 16 位浮点运算的精度需求。深度学习近年来已经能在较低精度下取得良好表现,但某些训练阶段或高精度推理场景仍需更严格的数值稳定性保证。 其次是器件耐久性与可重写次数。
以相变存储为例,材料在相态切换过程中会产生结构变化,长期频繁写入会导致磨损并影响可靠性。因此,相变存储更适合用于部署训练完成后的模型权重作为"只读"或少量重写的场景,而非用于高频写入的训练过程。相比之下,SRAM 的可重写性和成熟工艺使其在近内存数字实现中具有耐久优势,但以 SRAM 为基础的方案在能效与密度上无法与模拟阵列竞争。 再者是系统级集成问题。要把内存计算单元引入现有计算堆栈,需要重新设计编译器、数据流调度和软件栈,以便把模型的部分或全部计算迁移到新硬件上。这涉及模型训练的流程调整、量化方法、校准机制以及容错设计。
当前多数内存近端计算设备更适合在推理部署阶段使用,因此现实路径往往是先在训练端沿用传统 GPU,而在部署端利用内存计算提高推理能效。 数字近内存的现实进展与行业案例 数字近内存计算以将大量可访问的本地 SRAM 与并行化处理核心相结合为主,代表着一种兼顾实用性与收益的折中方式。以 NorthPole 为例,这类处理器通过在每个计算核附近配备较大本地存储并优化数据布局,避免了频繁往返于远端内存的带宽消耗。在一些基准测试上,针对特定规模的语言模型,数字近内存方案已经显现出数量级的能效和延迟优势。 此外,行业也在通过模型并行、分层缓存策略和通信压缩等软件与硬件结合的手段来缓解瓶颈。举例来说,模型压缩、权重剪枝、低秩近似以及知识蒸馏等方法可以在算法层面减少需要传输的数据量,而通信层面的量化与压缩协议可以减少跨设备带宽占用。
这些方法与近内存或内存计算硬件配合,能在实际系统中带来更可观的总体收益。 协同封装光学与更短的数据通路 要从根本上降低远端数据传输的能耗,改善物理互连同样关键。传统的金属导线在长距离传输中消耗大量电力,而光互连在带宽密度与能效上具有天然优势。协同封装光学把光电子器件更靠近硅芯片封装边缘,用光波导替代长距离电线传输,高带宽且能耗相对更低。通过把高速互联带到芯片封装层面,分布式训练时的权重同步和激活交换可以更高效地完成,从而缩短模型训练时间并降低能耗。 展望:混合架构与生态系统协同是现实路径 即便内存近端计算和协同封装光学在未来带来突破,也很难完全取代冯·诺依曼架构在普适计算领域的统治地位。
通用 CPU 和 GPU 在指令灵活性、高精度计算以及广泛的软件生态方面仍然占优。现实更可能是混合架构的共存:在一个数据中心或加速平台中,通用处理器负责控制流、稀疏与高精度任务,近内存与内存计算单元负责权重密集型的推理与部分训练环节,光互连确保跨芯片的数据高效流动。 要实现这种混合愿景,需要硬件、软件及算法层面的深度协同。硬件端需提供符合能效与可编程性的加速器与内存阵列;软件端需发展针对此类硬件优化的编译器、运行时和量化框架;算法端需设计更鲁棒的低精度训练与推理方法,适配新型存储器件的噪声与非线性特性。随着产业链中各方的投入,未来几年我们可能看到更多实用的混合系统在数据中心和边缘部署,带来显著的能效改进。 结语 冯·诺依曼架构在过去六十年推动了计算行业的通用化发展,但在数据量呈指数级增长的 AI 时代,它的分离式存储与计算设计暴露出明显短板。
通过缩短数据传输距离、发展近内存与内存近端计算、以及引入高带宽低能耗的光互连,工程师和研究人员正逐步拆解这个瓶颈。现实中没有单一灵丹妙药,结合数字近内存、模拟内存计算与更高效的互联技术,再配合软件与算法的协同优化,才是兼顾可用性与能效的可行路径。未来的计算生态将是多架构并存的格局,各类硬件将各尽其长,协同驱动人工智能向更高的智能每瓦比迈进。 。