人工智能(AI)的进步正以前所未有的速度推动计算领域的革新,但与此同时,支撑这一切的基础设施也正面临巨大的挑战。尤其是在网络传输环节,传统的技术方案逐渐暴露出限制,这些限制如同"网络墙"般阻碍了整体系统性能的提升。园区内部的GPU通信尤其如此,内存和网络瓶颈造成的GPU利用率降低,直接影响了AI加速器的计算效率与整体效能。铜缆和光纤,这两种主流通信介质各有优缺点。铜缆以其高效的功率利用和优良的稳定性,在短距离传输中表现优异,局限却是距离难以超过2米,限制了多机架的连通。光纤则可支持十余米甚至更长距离的传输,但其高功耗和较高故障率,严重制约了大规模、可靠运行的基础设施部署。
微软研究团队通过多年的跨领域合作,致力于突破光电通信的基本矛盾 - - 功率效率、传输距离与系统可靠性之间的权衡。他们提出了名为MOSAIC的创新技术,采用"宽而慢"的架构理念,利用大规模多路低速微型LED阵列取代高速的狭窄串行通道。传统通信链路往往追求极高的单通道数据速率以实现整体带宽,这种"窄而快"的架构虽满足带宽需求,却带来了复杂的信号完整性问题与高能耗,尤其是铜缆在高速度下传输距离受限,光纤中的激光驱动器功耗大且可靠性低。MOSAIC的微LED技术源自显示面板的光源解决方案,其微小尺寸带来了极佳的调制速度和高密度集成可能性。通过将数百个微LED通道并行工作,每个通道以2Gbps的相对低速率传输,实现了总带宽可达800Gbps以上的高速连接。微LED的温度不敏感性和结构简单性使其比传统激光器光源更稳定,且并行多通道设计为冗余机制提供了天然支持,大幅度提升了系统的可靠度,降低故障率达百倍级别。
值得关注的是,MOSAIC技术不仅在性能上给传统网络带来突破,还兼顾了与现有服务器和网络设备的兼容性,无需对数据中心架构作根本改变,即可作为直接替代方案推广应用,从而极大降低了推广的门槛和成本。通过影像光纤的创新使用,MOSAIC能以单根光纤承载数千通道数据,有效解决高通道数带来的复杂布线问题。电路设计上,采用模拟电子后端实现低功耗数据处理,避免了数字信号处理的高能耗和复杂逻辑,为整体系统节省更多能量。综合来看,MOSAIC技术有望节省高达68%的功耗,相当于每条光缆节能超过10瓦,覆盖全球光缆年出货量后,年功耗节省可突破百兆瓦级别,相当于为30多万个家庭供电。这不仅优化了数据中心的能源消耗,也缓解了设施冷却和机械设计的压力,打破了超密集机架部署的限制。在架构层面,MOSAIC的出现意味着长距离、低功率的高带宽GPU互连成为可能,推动了从单机多GPU向多机架规模化聚合的迈进。
新型网络形态和规模协同优化将带来更高的资源利用率和系统可扩展性。同时,在计算硬件设计上,这种跨长距离连接技术为资源解耦和模块化设计铺平道路,支持小型化、多单元计算平台的构建,突破了封装面积的制约,使GPU内存容量及带宽提升成为现实,更有利于新兴内存技术的应用。历史上,每一次网络通信技术的重大突破,都催生了新型应用与计算模型的诞生。MOSAIC以其低功耗、高可靠性和远距离特性,将有力释放AI计算基础设施的潜力,成为下一代大规模AI系统发展的核心驱动力。与此同时,该技术的产业化推进也昭示着行业对绿色计算和可持续发展的积极响应。微软的这项研究成果不仅获得了顶级学术会议SIGCOMM的最佳论文奖,还展现了硬件与系统协同设计的重要性,成为未来AI网络技术发展的标杆。
随着MOSAIC逐渐成熟并进入量产,全球数据中心将迎来网络通信效率和能效的双重跃升,促进AI技术广泛落地并发挥更大价值。行业各方期待通过合作与持续创新,进一步完善和丰富该技术体系,将其应用扩展至更多场景,助力实现智能计算的变革。展望未来,突破性的光电通信技术将推动AI计算架构重新定义性能极限,以更低成本、更高效率、更大规模满足日益增长的智能计算需求。用户和开发者将因网络瓶颈的消除而受益,享受到更加灵活和强大的AI服务体验。 。