Meta的基础设施演进是近现代互联网工程史上一部浓缩的技术变迁史。从2004年以LAMP架构支撑小规模校园社交,到如今为训练和推理超大语言模型筹备数千兆瓦级别的计算群落,Meta通过软硬协同创新回应了规模、可靠性和效率的三重压力。理解这段历程不仅能帮助工程师把握大型系统的设计原则,也为决策者和研究者提供如何在AI时代重构数据中心与计算生态的实践参考。 早期演进的核心在于软件层面的水平扩展和缓存优化。当用户从哈佛走向全国乃至全球,社交图谱的连通性要求打破原有以大学为单位的数据库孤岛。为维持低延迟体验,Meta构建了大规模缓存部署与新的数据管理系统,如TAO等,解决海量读写的分布式访问问题。
与此同时,边缘计算和多数据中心复制的需求推动公司从单点机房向跨区域骨干网络扩展,开始自建光纤链路和全球POP节点以缩短网络路径。 进入2010年代,基础设施的挑战从简单扩展转向分布式一致性、舰队管理与故障掩蔽。为了避免跨地域数据复制带来的可见不一致,Meta开发了缓存失效机制和一致性API,为千上万的服务提供统一的数据语义。面对数百万台服务器的运维复杂性,公司又构建了Twine、Tectonic、ZippyDB和Shard Manager等管理平台,从作业调度到全局分片管理实现了自动化和可观测性。为了应对硬件频繁失效带来的风险,Kraken、Taiji与Maelstrom等系统被用于流量测试、负载均衡和灾难恢复,确保用户体验的连续性。 人工智能负载的出现彻底改变了元基础设施的设计范式。
短视频与个性化推荐的兴起揭示出传统基于社群喜好的推荐逻辑无法满足千人千面的精准匹配需求,于是GPU和其他加速器进入了舞台中央。GPU擅长向量与矩阵运算,使得海量视频可以用向量嵌入表示,通过相似度检索和序列化点击预测实现个性化排序。与廉价通用CPU不同,AI集群是一种高性能、高能耗、对延迟与带宽极度敏感的系统,要求机房在供电、冷却、网络和软件栈上进行整体规划。 从最初数千颗GPU的训练集群到为LLM预训练将规模推升到数千乃至数十万GPU的时代,Meta在短短几年内完成了跨越。在2023年,基于当时可用资源,公司设计并部署了两种各有千秋的24k H100集群,分别基于InfiniBand与RoCE网络技术,以便实验不同互联方案的性能和可扩展性。随后,通过腾出多座生产数据中心资源,Meta在数月内整合出单规模达129k H100的超大集群,证明了跨建筑、跨机房调度与资源动员能力的极限拓展。
大规模同步训练带来的一个关键问题是"任何一台GPU的性能或可靠性问题都可能拖慢整个训练作业"。与Web服务不同,AI训练通常需要数千卡同步工作,单点故障将导致昂贵的检查点与重启成本。为此,Meta通过与产业伙伴合作以及在中间件与训练框架上的优化,把中断率大幅降低,为超大规模训练提供了可行性保障。同时在模型与算法层面的创新,例如为生成性推荐提出的层次化序列化单元(HSTU),也能显著加速训练与推理过程。 在硬件多样化方面,Meta采取的是"一手引入一手自研"的策略。除了采用NVIDIA H100、GB200到GB300等商用GPU外,公司还投入自研的Meta Training & Inference Accelerator(MTIA)并已在生产中用于排名与广告推理工作负载。
自研芯片在能效与成本上带来了明显优势,但也暴露出晶片封装、内存与散热的多重工程难题。晶体管工艺的演进放缓与 reticle 面积限制导致单片性能提升受限,芯片间的2.5D或3D封装成为必然路径,这又推高了能耗密度与散热难度。 为了解决内存瓶颈,Meta在芯片设计中把高带宽内存(HBM)紧邻计算核心,但芯片"海滩线"有限,如何在计算密度、内存容量与I/O带宽之间做权衡,成为常态的工程抉择。把高带宽内存移出芯片或机架,通过高速互联实现内存离散化,是另一条可行路线,但对网络延迟、可靠性与带宽提出了更高要求。为此,硅光子学被视为长期解决方案的一部分,它可以在更长距离上以更低能耗提供更高带宽,但目前光互联在成本、可靠性和制造规模上仍面临门槛。 在系统级设计上,空调辅助液冷(AALC)等混合冷却方案被广泛采用以应对每机架数十万瓦的热通量。
以GB200机架为例,其单pod能耗高达十数万瓦,与之相配套的冷却与电力分配系统必须重新设计。此外,Meta的工程团队开始更多考虑模块化与可组合性的硬件架构,通过pod与rack级别的标准化缩短部署周期并降低运维复杂度。 硬件生态的多样化同时带来管理与软件兼容性的挑战。每年出现五六种不同SKU会增加调度复杂性并导致资源利用率下降。为解决异构硬件带来的碎片化问题,开放标准、开源软件与开放权重模型成为关键杠杆。像PyTorch与Triton这样的开源堆栈,为开发者提供了统一的编程接口,减少了在不同加速器之间迁移时的重写成本。
开放模型则为硬件与基础设施工程师提供了统一的目标,使得产业可以围绕一组代表性工作负载进行优化。 Meta长期参与并推动Open Compute Project(OCP),通过贡献硬件设计和操作经验促进机架、电源和冷却等数据中心标准化。在AI时代,类似Catalina的高功率开放机架和Grand Teton的集成平台代表了开放设计如何帮助行业加速迭代、降低成本并提高互操作性的典型案例。未来需要在机架功率密度、互联拓扑与电源接口等层面形成更广泛的标准,以便不同供应商的硬件能在同一数据中心环境下协同工作。 面向未来,Meta在规模化上已经把视野从单个数据中心扩展到"地域分布式大群集"。Prometheus项目是迈向千兆瓦级集群的前奏,采用跨多栋数据中心、临时帐篷与邻近机房联合部署的方法,将训练作业延展到更大的地理空间;而计划中的Hyperion则提出了在未来几年内逐步走向五千兆瓦容量的设想。
要让这些超大基础设施高效运行,软件层如Twine和MAST必须支持低频抖动网络下的长距离训练与容错,调度系统需要对网络、能耗与冷却进行联合优化。 Meta的经验表明,AI基础设施不是单一技术的堆叠,而是软硬件、网络与能量系统的协同工程。实现高利用率需要从芯片封装、内存架构、光互联到开放生态与标准化在多层面上同时推进。与此同时,市场多样性对长远创新至关重要:鼓励不同厂商提供兼容且可组合的解决方案,会促使成本下降并推动性能边界。 展望下一个十年,技术发展的不确定性与需求的爆发式增长并存。对Meta而言,目标不仅是追求更大的算力,而是把算力转化为对用户有意义的体验,让模型成为每个人的智能帮手。
为此,工程团队将继续在先进封装技术、内存离散化方案、硅光子互联与开放标准等领域投入研发,同时保持与学界与产业的开放合作,用系统化的工程方法应对AI带来的深远变革。最终,AI基础设施的进化将不仅影响一家公司的竞争力,更将重塑整个云计算与数据中心产业的未来。 。