随着人工智能和高性能计算(HPC)技术的快速发展,全球科技企业纷纷加快了对于计算加速器的研发与应用,而在这一领域中,GPU加速器一直处于主导地位。然而,令人惊讶的是,日本依然坚持在定制浮点计算加速器上投入大量资源,打造出与传统GPU截然不同的创新计算架构。本文将全面探讨日本为何仍旧重视这类加速器,揭示其背后的技术进步和战略考虑。 首先,需要理解的是,虽然GPU因其面向多种应用的通用性和庞大的生态系统,成为了AI和HPC领域的首选加速器,但并非所有计算任务都能在GPU架构上完美运行。GPU通常采用SIMT(单指令多线程)模型,在执行高度并行但结构单一的任务时效率极高,但在某些精细化、多样化的并行处理需求面前,灵活性有所不足。日本的定制浮点计算加速器,如Pezy Computing开发的系列芯片,则采用了一种介于MIMD(多指令多数据)和SPMD(单程序多数据)之间的架构设计,既保证了并行计算的强大性能,又提供了更精细的线程控制和资源调度能力。
Pezy Computing发展历程本身充分体现了这一理念。自2012年推出首款Pezy-1芯片以来,公司已经历多代产品更新换代,不断提升核心数量、主频及内存带宽,并依托节能高效的架构,将功耗控制在合理范围内。例如,Pezy-SC4s芯片采用了先进的台积电5纳米工艺,集成2048个处理元素,主频达到1.5GHz,搭载96GB高速HBM3内存,带宽高达3.2TB/s,这些参数在保障浮点计算性能的同时,也极大提升了能源效率。该芯片还支持多种浮点运算格式,包括FP64、FP32、FP16以及BF16,充分适应不同计算精度需求。 除了硬件创新,Pezy Computing还构建了完整的软件生态,支持主流AI框架如PyTorch的移植,兼容Meta的Llama系列、谷歌Gemma3等大型AI模型。软件支持的完善使得这些定制加速器不仅限于传统的科学计算和仿真领域,也能广泛应用于训练和推理任务。
更重要的是,在与Nvidia的H100 GPU进行基因组分析等实际应用对比中,Pezy的SC3芯片展现出超越GPU的性能优势,功耗和运行效率均处于竞争领先水平,充分验证了其架构设计的有效性。 日本政府在支持这类技术研发方面也发挥着关键作用。由新能源产业技术综合开发机构(NEDO)提供资金和政策支持,不仅助力Pezy Computing,也推动了包括富士通进行的Arm服务器CPU"Monaka"以及未来"FugakuNext"超级计算机的开发。政府有意通过保持对自有浮点加速技术的持续研发,确保在全球技术供应链紧张或出口限制的背景下,仍然具备独立自主的核心算力实力。这种战略布局不仅维护了国家安全,也保障了科研与产业发展的连贯性。 此外,Pezy系列芯片设计中的高效缓存架构是其性能优势的另一关键。
芯片中的处理元素(PE)被有机地分组为"村庄"、"城市"、"县"和"州",形成层次化缓存系统和存储共享机制,这种复杂的缓存交织网络,极大地减少了对外部内存的访问延迟,提升了计算密度和整体吞吐量。相比之下,传统GPU采用的SIMT模型,尽管核心数量多且线程数庞大,但在缓存和内存访问优化上难以达到如此精细的层次平衡。 技术进步之余,日本在产业链管理和系统集成上也展现了成熟的实力。Pezy Computing配套的系统板卡采用AMD的64核"Turin" Epyc 9555P作为主机处理器,搭载400 Gb/s NDR InfiniBand高速互联,四块SC4s加速器协同工作,通过PCI-Express 5.0接口实现高效数据传输。计划构建90节点测试系统,理论峰值达8.6 PFlops的浮点性能,这在国内及国际超级计算领域都具有较强竞争力。 值得关注的是,Pezy Computing正计划推出的下一代SC5s芯片,预计将采用台积电3纳米制程,具备双芯片设计(双状态结构),并支持FP8低精度浮点运算,进一步提升计算性能和能效比。
该设计预期在FP64浮点运算效率上达到45.8 GFlops/W,全面追赶甚至超过部分主流GPU产品,彰显出日本在加速器领域保持创新的决心和实力。 纵观全局,日本持续投资定制浮点计算加速器背后,体现出对高性能计算多样化需求和能源效率的深刻洞察。由于全球AI和HPC市场需求的剧增,依赖单一GPU厂商和架构带来的风险也日益显现。日本通过扶持本土厂商,保持技术积累,不仅丰富了计算加速器的技术选项,也为未来可能的供应链波动准备了更为充足的应对方案。 总结来看,尽管GPU仍然是当前主流计算加速器,但日本在定制浮点加速器上的坚持投入,正逐渐开辟出一条既注重性能又强调能效与自主创新的独特路径。Pezy Computing凭借其独树一帜的架构设计、稳步提升的硬件规格、完备的软件支持以及系统级的集成优化,已经在国际HPC与AI领域展现出不可忽视的竞争力。
随着未来SC5s及后续产品的推出,这一趋势预计将持续加强。日本的策略不仅为其国家科技安全添砖加瓦,也为全球高性能计算生态带来更多元和创新的可能。 。