随着全球超级计算需求日益增长,能效比和高性能计算的平衡成为各大芯片厂商竞相突破的重要课题。作为日本本土超级计算硬件设计的代表,PEZY Computing一贯致力于打造适合高精度计算的能效芯片。2025年Hot Chips会议上,PEZY公布了旗下新一代芯片PEZY-SC4s的架构细节和仿真成绩,再次彰显了日本在超级计算领域持续深耕的实力和独特视角。 自上世纪80年代以来,日本在超级计算机体系架构领域一直有着浓厚积淀,诸如Fujitsu、NEC等厂商均在国际舞台上扮演重要角色。PEZY Computing则以绿色高效的多核计算方案赢得业内瞩目,其旗下PEZY-SC系列芯片在历次Green500榜单上均占有一席之地。2015年,RIKEN的Exascaler-1.4采用PEZY-SC芯片荣获Green500冠军。
至2021年,PEZY-SC3依旧跻身绿能计算Top 20,这是对其设计理念和技术实施的有力验证。 PEZY-SC4s在保持高性能FP64计算的基础上,更注重功耗控制和架构优化。与传统GPU通过高频率和大算力来提升性能不同,PEZY选择了大规模并行单位以较低主频和电压运行,从架构层面降低功耗。据了解,PEZY-SC4s的主频较前代产品提升至1.5 GHz,相比PEZY-SC3的1.2 GHz有明显提升,并凭借精细的多线程调度和低分支惩罚特性,实现了每时钟周期的高效计算能力。 PEZY-SC系列独树一帜的设计在于其处理单元(PE)的组织结构。一颗PE类似于GPU中的执行单元,但采用多线程并行策略隐藏延迟。
PEZY-SC4s的每个PE拥有八硬件线程,分为两组四线程,通过硬件机制在组内轮转调度,以实现细粒度多线程调度。当遇到较长延迟指令时,可切换线程组,进行粗粒度多线程调度,甚至允许自动线程切换以减轻编译器或程序员负担。这一设计有效规避了GPU中常见的波浪/波束分支发散问题,降低了因控制流复杂导致的吞吐率损失。 在SIMD向量宽度方面,PEZY-SC4s将64位浮点单元从前代的2宽扩展到4宽,提升了每条指令的控制效率,但也稍微增加了分支分歧风险。相比Nvidia与AMD通常使用的1024位甚至2048位宽的向量单元,PEZY的256位宽度更加适合浮点计算密集且控制流多变的科学模拟与工程计算。 PEZY-SC4s还新增了对BF16低精度数据类型的支持,迎合当前人工智能和机器学习领域对混合精度计算的需求。
值得注意的是,PEZY并未投入面积和资源建设专门的矩阵乘法单元,这体现了其更专注于浮点高精度计算而非AI加速的战略方向。 存储子系统是PEZY-SC4s另一大亮点。其采用多层缓存架构,其中L1数据缓存与指令缓存规模虽小(均为4KB),但结合跨多级组织形态(PE、Village、City、Prefecture、State)实现高效的数据共享与访问。每个Village由4个PE组成,4个Village合成City,16个City组合成Prefecture,而Prefecture级别共有18个City,其中两座City被设计为冗余,确保系统稳定性和高可用性。 L1指令缓存虽然容量有限,但结合32KB的L2指令缓存共享于16个PE,大幅提升指令访问效率。L1数据缓存容量相比前代翻倍,尽管带宽保持不变,这表明设计团队采取更注重缓存容量而非单纯提升带宽的策略,以兼顾性能与功耗。
当地存储机制则类似于GPU的共享内存,24KB容量的软件管理scratchpad为多线程提供高速低延迟的数据访问,相比传统缓存具备更可控的性能表现。 在更上层,多个City通过交叉开关连接,构建了64MB的三级缓存(L3),其读写带宽分别达到12TB/s与6TB/s,延迟在100至160周期之间,整体性能优于AMD RDNA4的Infinity Cache。L3缓存支持原子操作和多级缓存同步,取消了传统GPU级别的硬件缓存一致性机制,简化了硬件设计并降低了功耗。 系统通信方面,PEZY-SC4s通过16条PCIe Gen 5通道与主机相连,带宽与延迟均较PEZY-SC3有所提升。主机平台则采用搭载Zen 5架构的AMD EPYC 9555P处理器及Infiniband网络,支持多块PEZY-SC4s协同工作,满足高密度高性能计算需求。 在内存配置上,PEZY-SC4s采用四堆HBM3高速内存,总带宽达到3.2TB/s,容量96GB,较PEZY-SC3使用的HBM2和DDR4混合方案大幅提高内存带宽和容量,保障海量数据的快速访问。
高带宽内存设计有效缓解数据传输瓶颈,支撑其大规模并行计算架构的高吞吐。 管理处理器方面,PEZY-SC4s内置一颗四核RISC-V处理器,频率1.5 GHz,采用开源的Rocket Core架构,负责调度处理单元和主机接口,体现出开源架构在高性能计算终端管理中的影响力和潜力。此举与Nvidia等国际巨头趋向RISC-V管理核的趋势不谋而合,表明开放架构正逐渐被主流采纳。 PEZY-SC4s的架构设计体现了技术与应用需求的深刻融合。其FP64性能效率预计可达每瓦约91 GFLOPS,显著优于Nvidia H200的49 GFLOPS,稍逊于AMD MI300A的110 GFLOPS,但鉴于后者基于复杂的3D堆叠芯片设计,PEZY的单芯片单晶圆传统制造路径在成本和开发周期上占优。PEZY-SC4s因此成为高性能浮点计算领域极具竞争力且经济实用的解决方案。
伴随人工智能浪潮的推动,许多厂商将重点转向低精度混合数据类型及矩阵乘加单元,导致高精度FP64计算需求相对忽视。而科学模拟、工程设计等领域需要准确度极高的计算结果,PEZY-SC4s的诞生恰好填补了这一空白。其设计坚守高精度高能效的路线,满足多迭代数值计算对误差控制的苛刻要求。 在更广的视角下,PEZY-SC4s凸显了日本持续自主芯片研发的战略价值。与其他依赖美国主导芯片设计的国家相比,日本通过本土设计满足特定需求,不仅确保了技术独立,也推动了设计创新,保持了全球超级计算生态的多样性和活力。PEZY和Fujitsu在这一领域的持续探索,彰显了日本半导体产业的独特优势及坚定信念。
随着PEZY-SC4s走向实际应用阶段,业界期待其在多样化高性能计算任务中展现出色表现。是否能够真正实现其仿真成绩,还需市场和用户的实践检验。无论如何,PEZY-SC4s代表了日本超级计算技术发展的新高度,彰显了在全球高性能计算格局中不可忽视的力量。未来,期待更多来自日本的创新设计为全球技术竞争注入新活力,也希望PEZY-SC4s能够成为高精度计算和绿色节能领域的里程碑之作。 。