随着云计算和人工智能技术的飞速发展,计算资源需求正以前所未有的速度增长。亚马逊AWS近日宣布,旗下的弹性Kubernetes服务Amazon EKS正式支持构建包含高达10万节点的超大规模集群。这一创新突破不仅大幅扩展了单一Kubernetes集群的节点规模,同时为大规模人工智能(AI)和机器学习(ML)应用提供了强大的底层计算支撑,推动行业进入新的发展阶段。亚马逊EKS结合新一代EC2加速计算实例,能够在单个集群中处理多达160万颗AWS Trainium芯片或80万个NVIDIA GPU,从而实现极致的模型训练、调优以及动态推理。在复杂分布式训练和大数据处理领域,这种规模的集群将极大地缩短训练时间,提高资源利用率。集群的超大规模支持不仅同步提升了EKS本身的计算能力,同时也惠及基于EKS构建的其他AI/ML服务,如Amazon SageMaker HyperPod。
SageMaker HyperPod借助EKS作为计算层,优化了计算资源的管理与调度,使超大规模训练和推理任务更加高效和可靠。多年来,客户反馈明确指出,在AI/ML场景中,容器化训练任务和Kubeflow等操作器的作用不可或缺。通过项目如Karpenter实现资源供给和生命周期管理的自动化,以及支持灵活的调度策略,客户能够更好地应对复杂多样的训练任务。Kubernetes以其强大的API扩展能力和成熟的容器编排技术,成为AI/ML极致规模加速工作的基础平台。亚马逊EKS通过多项技术和架构创新,重塑了集群控制面和数据面的设计,从而实现了对超大规模集群的全面支持,同时保持了与Kubernetes的完全兼容性。针对不同的应用场景,AWS还提出了基于“cell-based架构”设计的策略,鼓励一般用途、低耦合、水平扩展的工作负载采用分区细胞结构以支持业务的持续增长。
然而,AI/ML训练因需要成千上万的加速器作为一个高效协同的整体,需要低延迟和高带宽的通信,单一集群模式的优势尤为明显。单集群不仅能提高计算资源的利用率,避免因跨集群调度造成的资源碎片;还简化了调度、发现和故障修复的集中运营流程,提升了集群整体的稳定性和性能。此外,许多机器学习框架本身也设计假设是在全局集群视角下操作,当前多集群模型尚不成熟,单集群更适合支持创新和业界的即时需求。从技术层面来看,Amazon EKS采用了一系列关键的架构优化来支撑10万节点集群的运行。核心之一是对Kubernetes的数据库etcd进行革新。etcd作为群集的分布式键值存储,采用Raft协议确保高一致性。
AWS通过将原本基于Raft的共识逻辑下放到独有的Journal系统,有效解决了共识协议带来的性能瓶颈,提高了数据库的扩展性和稳定性。此外,将etcd的持久层迁移至内存存储技术tmpfs,大幅减少数据读写延迟,并扩展数据库最大容量至20GB。结合对关键资源分区策略的优化,实现Etcd写入性能提升达5倍。Kubernetes API服务器同样针对超大规模进行了优化调整。调优关键参数如请求超时、重试策略、并发处理机制,以及利用缓存一致性机制减少依赖etcd的读取请求,显著提高了响应速度和吞吐量。更先进的自定义资源二进制编码技术CBOR使得大规模自定义资源的传输和处理更加高效。
集群控制器方面,针对锁竞争和事件处理延迟等痛点进行了深度优化,采用批量处理和索引加速来保证事件的快速响应和系统稳定。在调度器方面,尤其针对AI/ML集群的大规模并发调度需求,通过定制插件和参数调整,实现了即使面对10万节点时也能维持500个Pod每秒的调度吞吐量。节点生命周期管理项目Karpenter也同步升级。其新增的静态容量管理和容量块(Capacity Blocks)特性,帮助客户预留固定计算资源,避免大规模训练任务出现的延迟和资源竞争。自愈能力同步加强,配合EKS Node Monitoring Agent能在数分钟内完成数千节点的自动故障检测与替换,保证集群运行的连续性和可靠性。在网络方面,Amazon EKS采用原生VPC网络,避免了传统覆盖网络带来的性能损失。
通过引入前缀模式管理IP地址和结合多网卡的弹性网络接口,实现了网络地址的高效分配与极致带宽,有效支撑了大量节点间数据的高速传输需求,特别是在处理PB级数据训练时瓶颈大幅减少。此外,针对超大规模集群中常用的巨型容器镜像,AWS借助OCI技术引入了并行下载和解压机制,比传统镜像拉取效率提升了两倍,实现节点快速上线。大量节点并行拉取过程中,利用VPC内专用S3端点提供高达每可用区100GB/s的带宽保障,保障了镜像分发的稳定流畅。全面的测试验证也保障了技术实现的落地和可操作性。在模拟包括全集群预训练、并发调优以及大规模推理混合多样的场景中,Amazon EKS成功应对了10万节点和近百万Pod的持续高吞吐挑战,实现超千万级Kubernetes对象的管理且API延迟均保持在严格服务级别目标内。此外,在面对集群千节点故障引发的自动修复以及1.5百万每秒DNS查询压力时,集群表现同样卓越。
AWS的突破不仅助力Anthropic、Meta等大型AI公司开展前沿模型训练,更是未来生成式AI领域算力爆炸式增长的关键支撑。由此,AWS在保障可靠性、性能与规模的同时,也为整个行业提供了通用且高效的云端加速基础设施。向前看,随着AI模型不断增大及计算复杂度不断提升,AWS EKS的10万节点集群能力代表了云服务商在极限分布式计算领域的重要里程碑。客户能更加自信地构建下一代模型,优化训练周期,加速创新步伐。整体来看,Amazon EKS支持10万节点集群,无疑是云原生和AI/ML完整生态系统迈向极致规模的关键一步,为用户带来前所未有的弹性、性能和成本效益。基于这一强大的基础,未来的AI服务与应用将愈发智能,对业务的驱动力和产业的变革潜力也将不断被激发。
。