类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2025年12月16号 02点38分34秒

PEZY-SC4s登场Hot Chips 2025:日本超级计算领域的能效革命

监管和法律更新首次代币发行 (ICO) 和代币销售

钱财 qian.cx

PEZY-SC4s作为日本PEZY Computing在超级计算领域的全新力作,以其高效FP64计算能力和创新架构设计吸引了广泛关注。本文深入解析PEZY-SC4s的技术亮点、架构特点及其在全球高性能计算领域的重要意义。

随着全球超级计算需求日益增长,能效比和高性能计算的平衡成为各大芯片厂商竞相突破的重要课题。作为日本本土超级计算硬件设计的代表,PEZY Computing一贯致力于打造适合高精度计算的能效芯片。2025年Hot Chips会议上,PEZY公布了旗下新一代芯片PEZY-SC4s的架构细节和仿真成绩,再次彰显了日本在超级计算领域持续深耕的实力和独特视角。自上世纪80年代以来,日本在超级计算机体系架构领域一直有着浓厚积淀,诸如Fujitsu、NEC等厂商均在国际舞台上扮演重要角色。PEZY Computing则以绿色高效的多核计算方案赢得业内瞩目,其旗下PEZY-SC系列芯片在历次Green500榜单上均占有一席之地。2015年,RIKEN的Exascaler-1.4采用PEZY-SC芯片荣获Green500冠军。

至2021年,PEZY-SC3依旧跻身绿能计算Top 20,这是对其设计理念和技术实施的有力验证。 PEZY-SC4s在保持高性能FP64计算的基础上,更注重功耗控制和架构优化。与传统GPU通过高频率和大算力来提升性能不同,PEZY选择了大规模并行单位以较低主频和电压运行,从架构层面降低功耗。据了解,PEZY-SC4s的主频较前代产品提升至1.5 GHz,相比PEZY-SC3的1.2 GHz有明显提升,并凭借精细的多线程调度和低分支惩罚特性,实现了每时钟周期的高效计算能力。 PEZY-SC系列独树一帜的设计在于其处理单元(PE)的组织结构。一颗PE类似于GPU中的执行单元,但采用多线程并行策略隐藏延迟。

PEZY-SC4s的每个PE拥有八硬件线程,分为两组四线程,通过硬件机制在组内轮转调度,以实现细粒度多线程调度。当遇到较长延迟指令时,可切换线程组,进行粗粒度多线程调度,甚至允许自动线程切换以减轻编译器或程序员负担。这一设计有效规避了GPU中常见的波浪/波束分支发散问题,降低了因控制流复杂导致的吞吐率损失。在SIMD向量宽度方面,PEZY-SC4s将64位浮点单元从前代的2宽扩展到4宽,提升了每条指令的控制效率,但也稍微增加了分支分歧风险。相比Nvidia与AMD通常使用的1024位甚至2048位宽的向量单元,PEZY的256位宽度更加适合浮点计算密集且控制流多变的科学模拟与工程计算。 PEZY-SC4s还新增了对BF16低精度数据类型的支持,迎合当前人工智能和机器学习领域对混合精度计算的需求。

值得注意的是,PEZY并未投入面积和资源建设专门的矩阵乘法单元,这体现了其更专注于浮点高精度计算而非AI加速的战略方向。存储子系统是PEZY-SC4s另一大亮点。其采用多层缓存架构,其中L1数据缓存与指令缓存规模虽小(均为4KB),但结合跨多级组织形态(PE、Village、City、Prefecture、State)实现高效的数据共享与访问。每个Village由4个PE组成,4个Village合成City,16个City组合成Prefecture,而Prefecture级别共有18个City,其中两座City被设计为冗余,确保系统稳定性和高可用性。 L1指令缓存虽然容量有限,但结合32KB的L2指令缓存共享于16个PE,大幅提升指令访问效率。L1数据缓存容量相比前代翻倍,尽管带宽保持不变,这表明设计团队采取更注重缓存容量而非单纯提升带宽的策略,以兼顾性能与功耗。

当地存储机制则类似于GPU的共享内存,24KB容量的软件管理scratchpad为多线程提供高速低延迟的数据访问,相比传统缓存具备更可控的性能表现。在更上层,多个City通过交叉开关连接,构建了64MB的三级缓存(L3),其读写带宽分别达到12TB/s与6TB/s,延迟在100至160周期之间,整体性能优于AMD RDNA4的Infinity Cache。L3缓存支持原子操作和多级缓存同步,取消了传统GPU级别的硬件缓存一致性机制,简化了硬件设计并降低了功耗。系统通信方面,PEZY-SC4s通过16条PCIe Gen 5通道与主机相连,带宽与延迟均较PEZY-SC3有所提升。主机平台则采用搭载Zen 5架构的AMD EPYC 9555P处理器及Infiniband网络,支持多块PEZY-SC4s协同工作,满足高密度高性能计算需求。在内存配置上,PEZY-SC4s采用四堆HBM3高速内存,总带宽达到3.2TB/s,容量96GB,较PEZY-SC3使用的HBM2和DDR4混合方案大幅提高内存带宽和容量,保障海量数据的快速访问。

高带宽内存设计有效缓解数据传输瓶颈,支撑其大规模并行计算架构的高吞吐。管理处理器方面,PEZY-SC4s内置一颗四核RISC-V处理器,频率1.5 GHz,采用开源的Rocket Core架构,负责调度处理单元和主机接口,体现出开源架构在高性能计算终端管理中的影响力和潜力。此举与Nvidia等国际巨头趋向RISC-V管理核的趋势不谋而合,表明开放架构正逐渐被主流采纳。 PEZY-SC4s的架构设计体现了技术与应用需求的深刻融合。其FP64性能效率预计可达每瓦约91 GFLOPS,显著优于Nvidia H200的49 GFLOPS,稍逊于AMD MI300A的110 GFLOPS,但鉴于后者基于复杂的3D堆叠芯片设计,PEZY的单芯片单晶圆传统制造路径在成本和开发周期上占优。PEZY-SC4s因此成为高性能浮点计算领域极具竞争力且经济实用的解决方案。

伴随人工智能浪潮的推动,许多厂商将重点转向低精度混合数据类型及矩阵乘加单元,导致高精度FP64计算需求相对忽视。而科学模拟、工程设计等领域需要准确度极高的计算结果,PEZY-SC4s的诞生恰好填补了这一空白。其设计坚守高精度高能效的路线,满足多迭代数值计算对误差控制的苛刻要求。在更广的视角下,PEZY-SC4s凸显了日本持续自主芯片研发的战略价值。与其他依赖美国主导芯片设计的国家相比,日本通过本土设计满足特定需求,不仅确保了技术独立,也推动了设计创新,保持了全球超级计算生态的多样性和活力。PEZY和Fujitsu在这一领域的持续探索,彰显了日本半导体产业的独特优势及坚定信念。

随着PEZY-SC4s走向实际应用阶段,业界期待其在多样化高性能计算任务中展现出色表现。是否能够真正实现其仿真成绩,还需市场和用户的实践检验。无论如何,PEZY-SC4s代表了日本超级计算技术发展的新高度,彰显了在全球高性能计算格局中不可忽视的力量。未来,期待更多来自日本的创新设计为全球技术竞争注入新活力,也希望PEZY-SC4s能够成为高精度计算和绿色节能领域的里程碑之作。。