近年来,人工智能技术的迅猛发展极大地推动了对高性能计算资源的需求,尤其是在数据中心内部,承载复杂模型训练和推理任务的服务器功率消耗也逐步进入全新阶段。谷歌此次公布的面向未来数据中心架构的革新计划,标志着IT行业在硬件设计、电力分配和冷却技术方面迈出了重要一步。此前,典型的数据中心机架功率需求通常在几千瓦至数十千瓦范围,大多数传统服务器装备的功耗在5千瓦到30千瓦之间。然而,随着集成多块GPU加速器的服务器不断兴起,功率需求飙升至100千瓦甚至更高。例如,英伟达发布的DGX GB200 NVL72系统功率超过120千瓦,极大考验现有电力供应系统的承载力。谷歌最新的研发重心是将机架单元的电力需求提升至1兆瓦级别,且配备相应的制冷设备以应对更大热量释放。
实现如此规模的电力供应,并非仅仅是提升电压或更换电源转接器那么简单。谷歌宣布采用全新的±400伏直流电压系统,替代此前业内倡导的48伏直流分布,这不仅大幅提升了传输效率,也使他们能够利用电动车产业已经建立起来的庞大供应链。电动车行业的快速发展催生了高效可靠的高电压直流电力组件和系统,谷歌此举不仅节省了设计和制造成本,还显著优化了质量控制与生产规模效益。谷歌在其官方博客中强调,将400伏直流设为名义电压是基于对供应链成熟度和制造效率的深度考虑,期望带动数据中心电力基础设施与电动车领域实现良好协同。为进一步提升空间利用率及管理灵活性,他们设计了一套名为“Mt Diablo”的架构,实现电力组件与IT服务器机架的物理拆分。此项创新意味着电力转换与管理单元将集中置于附属的“侧车”电源机架(sidecar power rack)中,由独立机架负责交流电转直流电的高效转换与配电,释放原本用于电源组件的宝贵机架空间用于部署高密度GPU服务器,这一点对AI训练和推理工作负载尤为关键。
谷歌正在与Meta和微软等行业巨头一道合作开发“Mt Diablo”标准,预计在今年五月将进行半正式的规范草案发布,推动行业共享与采用。长期来看,谷歌也计划探索直接向数据中心乃至机架端分发更高电压的直流电力方案,以实现更大功率密度和更高能源利用率。为了应对机架功率等级大幅提升带来的散热挑战,谷歌同步推进第五代液冷技术研发。液冷技术已在谷歌自有云计算基础设施和用于机器学习加速的张量处理单元(TPU)中得到广泛应用。最新一代冷却系统代号“Project Deschutes”,采用行内冷却单元(CDU)为服务器提供冷却液,冷却液通过柔性软管输送至直接固定于高功率芯片上的冷板,最大限度提升热交换效率。这种液冷体系透过冗余的泵和换热器单元大幅提高系统的可靠性,谷歌宣称自2020年以来,该冷却设施的可用性达到了99.999%的行业顶尖标准。
通过在美国本土数据中心大量部署此类先进冷却和高电压直流供电设备,谷歌不仅致力于满足日益庞大的AI算力需求,更展现了对能源效率和可持续性的重视。谷歌接下来计划将“Project Deschutes”设计贡献给开放计算项目(Open Compute Project,OCP),助力全球更多数据中心运营商实现液冷技术大规模应用,推动行业散热技术跨越式发展。此次技术创新体现了数据中心架构向“电动车供应链”“高电压直流电源”和“高效液冷”三大方向的集成发展,开辟了实现极高功率密度、降低整体能耗和提升系统可靠性的道路。谷歌此举也彰显了大规模云服务提供商如何通过跨界借鉴和协同合作,推动整个IT和硬件产业链的创新升级。未来几年,随着全球AI计算需求激增,类似的高功率密度机架设计和先进冷却解决方案将逐渐成为数据中心建设的标配。融合电动车产业链优势的电力系统设计,改善功率传输效率,并为配套冷却设施预留出更多空间,将极大提升服务器单元的扩展潜能和运行稳定性。
此外,更加开放和标准化的技术规范推广,有助于业界加速新技术应用,兼顾成本、可靠性与可持续发展目标。综合来看,谷歌此次在电力供应和热管理领域的创新,不仅满足了AI时代对硬件性能的苛刻要求,也为全球云计算基础设施迎来新的发展范式奠定基础。展望未来,电动车供应链驱动的数据中心供电革命,联动高效液冷技术,将成为推动全球算力基础设施绿色、智能和高效发展的重要引擎。随着这些技术逐步推向市场并形成规模效应,我们有望见证更加环保、经济且性能卓越的数据中心诞生,为人工智能、大数据分析等前沿应用提供坚实的硬件保障。