加密活动与会议 加密税务与合规

AWS支持高达10万节点的超大规模集群,推动人工智能和机器学习的极限发展

加密活动与会议 加密税务与合规
AWS announced support for clusters with up to 100k nodes

亚马逊AWS宣布其弹性Kubernetes服务(Amazon EKS)现已支持高达10万节点的集群规模,显著提升了AI和机器学习工作负载的计算能力与效率。此举标志着云计算在超大规模加速器资源管理和分布式训练中的重要突破,促进了生成式人工智能和大规模模型训练的快速发展。

随着云计算和人工智能技术的飞速发展,计算资源需求正以前所未有的速度增长。亚马逊AWS近日宣布,旗下的弹性Kubernetes服务Amazon EKS正式支持构建包含高达10万节点的超大规模集群。这一创新突破不仅大幅扩展了单一Kubernetes集群的节点规模,同时为大规模人工智能(AI)和机器学习(ML)应用提供了强大的底层计算支撑,推动行业进入新的发展阶段。亚马逊EKS结合新一代EC2加速计算实例,能够在单个集群中处理多达160万颗AWS Trainium芯片或80万个NVIDIA GPU,从而实现极致的模型训练、调优以及动态推理。在复杂分布式训练和大数据处理领域,这种规模的集群将极大地缩短训练时间,提高资源利用率。集群的超大规模支持不仅同步提升了EKS本身的计算能力,同时也惠及基于EKS构建的其他AI/ML服务,如Amazon SageMaker HyperPod。

SageMaker HyperPod借助EKS作为计算层,优化了计算资源的管理与调度,使超大规模训练和推理任务更加高效和可靠。多年来,客户反馈明确指出,在AI/ML场景中,容器化训练任务和Kubeflow等操作器的作用不可或缺。通过项目如Karpenter实现资源供给和生命周期管理的自动化,以及支持灵活的调度策略,客户能够更好地应对复杂多样的训练任务。Kubernetes以其强大的API扩展能力和成熟的容器编排技术,成为AI/ML极致规模加速工作的基础平台。亚马逊EKS通过多项技术和架构创新,重塑了集群控制面和数据面的设计,从而实现了对超大规模集群的全面支持,同时保持了与Kubernetes的完全兼容性。针对不同的应用场景,AWS还提出了基于“cell-based架构”设计的策略,鼓励一般用途、低耦合、水平扩展的工作负载采用分区细胞结构以支持业务的持续增长。

然而,AI/ML训练因需要成千上万的加速器作为一个高效协同的整体,需要低延迟和高带宽的通信,单一集群模式的优势尤为明显。单集群不仅能提高计算资源的利用率,避免因跨集群调度造成的资源碎片;还简化了调度、发现和故障修复的集中运营流程,提升了集群整体的稳定性和性能。此外,许多机器学习框架本身也设计假设是在全局集群视角下操作,当前多集群模型尚不成熟,单集群更适合支持创新和业界的即时需求。从技术层面来看,Amazon EKS采用了一系列关键的架构优化来支撑10万节点集群的运行。核心之一是对Kubernetes的数据库etcd进行革新。etcd作为群集的分布式键值存储,采用Raft协议确保高一致性。

AWS通过将原本基于Raft的共识逻辑下放到独有的Journal系统,有效解决了共识协议带来的性能瓶颈,提高了数据库的扩展性和稳定性。此外,将etcd的持久层迁移至内存存储技术tmpfs,大幅减少数据读写延迟,并扩展数据库最大容量至20GB。结合对关键资源分区策略的优化,实现Etcd写入性能提升达5倍。Kubernetes API服务器同样针对超大规模进行了优化调整。调优关键参数如请求超时、重试策略、并发处理机制,以及利用缓存一致性机制减少依赖etcd的读取请求,显著提高了响应速度和吞吐量。更先进的自定义资源二进制编码技术CBOR使得大规模自定义资源的传输和处理更加高效。

集群控制器方面,针对锁竞争和事件处理延迟等痛点进行了深度优化,采用批量处理和索引加速来保证事件的快速响应和系统稳定。在调度器方面,尤其针对AI/ML集群的大规模并发调度需求,通过定制插件和参数调整,实现了即使面对10万节点时也能维持500个Pod每秒的调度吞吐量。节点生命周期管理项目Karpenter也同步升级。其新增的静态容量管理和容量块(Capacity Blocks)特性,帮助客户预留固定计算资源,避免大规模训练任务出现的延迟和资源竞争。自愈能力同步加强,配合EKS Node Monitoring Agent能在数分钟内完成数千节点的自动故障检测与替换,保证集群运行的连续性和可靠性。在网络方面,Amazon EKS采用原生VPC网络,避免了传统覆盖网络带来的性能损失。

通过引入前缀模式管理IP地址和结合多网卡的弹性网络接口,实现了网络地址的高效分配与极致带宽,有效支撑了大量节点间数据的高速传输需求,特别是在处理PB级数据训练时瓶颈大幅减少。此外,针对超大规模集群中常用的巨型容器镜像,AWS借助OCI技术引入了并行下载和解压机制,比传统镜像拉取效率提升了两倍,实现节点快速上线。大量节点并行拉取过程中,利用VPC内专用S3端点提供高达每可用区100GB/s的带宽保障,保障了镜像分发的稳定流畅。全面的测试验证也保障了技术实现的落地和可操作性。在模拟包括全集群预训练、并发调优以及大规模推理混合多样的场景中,Amazon EKS成功应对了10万节点和近百万Pod的持续高吞吐挑战,实现超千万级Kubernetes对象的管理且API延迟均保持在严格服务级别目标内。此外,在面对集群千节点故障引发的自动修复以及1.5百万每秒DNS查询压力时,集群表现同样卓越。

AWS的突破不仅助力Anthropic、Meta等大型AI公司开展前沿模型训练,更是未来生成式AI领域算力爆炸式增长的关键支撑。由此,AWS在保障可靠性、性能与规模的同时,也为整个行业提供了通用且高效的云端加速基础设施。向前看,随着AI模型不断增大及计算复杂度不断提升,AWS EKS的10万节点集群能力代表了云服务商在极限分布式计算领域的重要里程碑。客户能更加自信地构建下一代模型,优化训练周期,加速创新步伐。整体来看,Amazon EKS支持10万节点集群,无疑是云原生和AI/ML完整生态系统迈向极致规模的关键一步,为用户带来前所未有的弹性、性能和成本效益。基于这一强大的基础,未来的AI服务与应用将愈发智能,对业务的驱动力和产业的变革潜力也将不断被激发。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
Amazon S3 Vectors
2025年10月23号 17点49分48秒 深入解读Amazon S3 Vectors:颠覆性云端向量存储新革命

探讨Amazon S3 Vectors的核心功能与优势,揭示其如何通过原生支持向量存储,助力企业大幅降低成本并提升AI应用性能,推动生成式人工智能的快速发展。

The C3 Programming Language
2025年10月23号 17点50分34秒 C3编程语言:安全、高效且兼容C的全新进化

深入探讨C3编程语言的特点、优势及其在现代软件开发中的应用潜力,助力程序员更好地理解和利用这一兼容且创新的C语言进化版本。

ETFs now shape US Bitcoin trading more than spot exchanges
2025年10月23号 17点51分22秒 美国比特币交易格局巨变:ETF取代现货交易所成为主宰力量

随着比特币交易不断发展,美国市场出现了显著变化,交易型开放式指数基金(ETF)逐渐超越传统现货交易所,成为主导比特币交易量的核心力量。这一转变不仅影响市场流动性和投资者行为,也预示着比特币投资进入新阶段。本文深入剖析这一趋势背后的原因、主要参与者及其对未来市场的深远影响。

You Can Buy a Martian Meteorite With Bitcoin—If You Have Upwards of $4 Million
2025年10月23号 17点53分05秒 用比特币购买火星陨石:价值超过400万美元的红色星球碎片

苏富比拍卖行开启火星陨石NWA 16788拍卖,接受比特币、以太坊和USDC出价,吸引全球科技收藏家关注火星稀有矿物的投资及其背后的加密货币支付趋势。

UK fintech Curve in talks to be acquired by Lloyds
2025年10月23号 17点54分07秒 英国金融科技Curve拟被劳埃德银行收购,发展历程与未来展望分析

随着英国金融科技行业的迅速发展,曾引领创新的数字钱包服务Curve正处于被劳埃德银行收购的关键谈判阶段。这一动态不仅反映了行业整合的趋势,也揭示了Curve从创业初期的辉煌到市场挑战的历程及其潜在转型方向。本文深入解析Curve的发展轨迹、面临的问题及劳埃德银行收购意图,为读者呈现全面的行业洞察。

Conversion of millimolar dissolved CO2 to fuels with molecular flux generation
2025年10月23号 17点55分13秒 分子通量生成技术实现毫摩尔级溶解二氧化碳高效转化为燃料

随着全球对碳减排和可持续能源的需求不断增加,利用海水中溶解的低浓度二氧化碳进行太阳能驱动的燃料生产成为前沿研究热点。本文深入探讨一种创新的分子通量生成技术,如何打破传统扩散限制,通过流动工程实现高效的二氧化碳捕获与转化,提升太阳能转燃料效率,为海洋资源利用和绿色能源生产提供具备规模化潜力的解决方案。

GenAI-Powered Inference
2025年10月23号 17点56分06秒 探索GenAI驱动推断:开启因果和预测分析的新纪元

随着生成式人工智能(GenAI)技术的迅速发展,利用其强大的能力进行因果推断和预测分析成为可能。GenAI驱动推断(GPI)作为一种创新的统计框架,通过无监督地处理文本和图像等非结构化数据,推动学术研究和应用实践走向更高效、更精准的未来。本文深入解读GPI的核心机制、应用场景及其在科学与社会中的重要意义。