类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2026年03月18号 21点34分41秒

Agent S3:以广泛扩展逼近人类级别的计算机使用能力

去中心化金融 (DeFi) 新闻加密市场分析

钱财 qian.cx

介绍 Agent S3 与行为最佳取N(bBoN)方法如何通过多次运行和事实抽取显著提升计算机使用代理在复杂长程任务中的稳定性与准确率,并讨论其在不同环境下的表现、局限与未来发展方向。

引言随着人工智能在桌面与移动环境中承担越来越多的任务,计算机使用代理(Computer-Use Agents,简称 CUA)正成为人们日常工作效率的重要推动力。从自动填表、预订行程到跨应用的信息整合,CUA 的能力取决于在复杂、长时长任务中保持稳定和可靠的执行。Agent S3 的出现提供了一条新的思路:通过简化框架并结合广泛扩展的多次运行选择机制,将不稳定性这一核心瓶颈降到最低,逼近人类水平的计算机使用能力。背景与挑战目前最难克服的一个问题是高方差。单次运行中的微小错误,例如误点、延迟响应或意外弹窗,会在长序列任务中逐步放大,导致成功率大幅下滑。即便是最强大的单次决策模型,也难以保证每次都能完美完成任务。

高方差使得用户体验不连贯,也限制了 CUA 在现实场景中的广泛部署。 Agent S3 的核心改进 Agent S3 在技术路径上延续了前代成果,同时引入了两项关键改进:框架上的简化与原生代码代理的加入。将此前的层级化管理器 - 工作器架构去除后,系统变得更直接、更轻量。原生代码代理能够在需要时生成并执行代码,使得代理在面对需要编程或脚本式解决方案的任务时具备更强的多样性与可靠性。单次运行下,Agent S3 在 OSWorld 的 100 步设置中达到了 62.6% 的准确率,已经超越了此前 61.4% 的最佳记录。行为最佳取N(Behavior Best-of-N,bBoN):广泛扩展的关键 Agent S3 的真正突破来自于行为最佳取N(简称 bBoN)。

不同于依赖单次最优输出的传统做法,bBoN 通过并行或并发生成多次独立运行,然后在这些备选中挑选最有希望成功的那一次。多次尝试带来多样化的行为轨迹,正是克服高方差的关键。事实抽取与行为叙述的作用原始的运行日志往往冗长且噪声较多,直接比较原始输出难以得到可靠判断。为此,Agent S3 将每次运行转化为结构化的事实序列,提取出与任务成功直接相关的关键信息。将这些事实串联形成行为叙述,使得每次尝试可以被简明地表达与比较。基于行为叙述的评判器能够引用特定事实进行对比推理,从而在多个运行中识别出最可能成功的轨迹。

评判器的设计与人类一致性选择哪个运行作为最终输出依赖于评判器的判定能力。Agent S3 团队发现评判器在 44% 的 OSWorld 任务中能够提升性能,评判器在这些任务中做出正确选择的比例为 78.4%。进一步通过人工复核,评判器的判定在更大比例的情况下被证明是合理的:人工评估显示评判器正确率可达 92.8%,这意味着在人类标准下的真实性能可能接近 76.3%。这种与人类偏好高度一致的评判机制,为将来自动化评估与选择奠定了基础。在不同环境下的泛化能力 bBoN 对泛化同样带来了显著改进。在 WindowsAgentArena 上,单次 Agent S3 的准确率为 50.2%,而通过从多次尝试中选择,准确率提升至 56.6%。

在 AndroidWorld 上则从 68.1% 提升至 71.6%。这些结果表明,多次运行与基于事实的评判器能够在不同操作系统与界面风格下稳定地提升成功率,而不仅仅是在训练或评测环境中表现良好。规模化带来的性能曲线随着尝试次数的增加,性能呈现出逐步提升的趋势。以 OSWorld 为例,当尝试次数扩展到 10 次时,基于 GPT-5 的系统取得了最高 69.9% 的准确率,而基于 GPT-5 Mini 的系统则达到了 60.2%。这种通过"量"来换取"质"的方式证明了 bBoN 的可扩展性:在计算预算允许的情况下,更多的独立运行可以显著提高成功概率。与先前方法的对比与意义 Agent S3 的思路不同于简单地提升单次模型能力或者通过更复杂的层级调度来控制流程。

通过简化框架与引入原生代码能力,系统提高了单次运行的基础可靠性;通过 bBoN,系统进一步通过多样化尝试和基于事实的评判来选择最佳轨迹。相比于仅靠更大模型或更复杂管理结构的方案,这种组合在计算和实现上更为现实且更易扩展。实际应用前景对于企业级办公自动化、个人助理型工具以及移动应用自动化,Agent S3 与 bBoN 提供了切实可行的改进路径。真实世界任务通常比基准测试更具复杂性和不可预测性,因而通过多次尝试捕捉到至少一次成功轨迹,能有效提升用户体验与信任度。原生代码代理还让 CUA 能够在需要编程或自动化脚本的场景下更灵活地解决问题,从而拓展了使用场景边界。局限性与伦理考量尽管 bBoN 已被证明能显著降低失败率,但这种方法对计算资源的需求更高,尤其是在需要大量并行运行时。

对资源受限的边缘设备或实时交互场景,如何在性能与成本之间取得平衡仍是挑战。此外,评判器的选择标准与训练数据也会带来偏差风险,必须确保评判机制的透明性与可解释性,避免在敏感任务中放大不必要的偏见。未来研究方向未来可从多个方向继续深化:优化事实抽取与行为叙述的精确度以减少误判风险;设计更高效的多次运行调度策略以降低计算开销;结合自适应预算分配的 bBoN,使得在资源受限时也能最大化成功概率;以及探索人机协同的评判流程,将自动评判与人工反馈结合以提升长期可靠性。结语 Agent S3 与行为最佳取N 的结合展示了一条可行的路径,通过结构化事实抽取、行为叙述和评判器选择,从根本上缓解了长时任务中的高方差问题。实验证明,单次运行的改进加上多次尝试的选择,可以显著提升复杂任务的成功率,逼近甚至在某些评估下接近人类水平。面对日益复杂的桌面与移动自动化需求,这种"广泛扩展"理念为打造更可靠、更普适的计算机使用代理提供了重要方向。

未来的工程实践需要在性能提升、计算成本与可解释性之间找到更好的平衡,推动 CUA 从实验室走向广泛的生产与日常使用场景。。

下一步

2026年03月18号 21点40分35秒 Etsy巫术与加密财富:73美元定制"加密百万术"的流行与风险解析

探讨Etsy上标榜为加密货币带来财富的巫术服务,从流行原因、平台监管与法律伦理,到对投资者的实用建议与理性应对,提供兼顾文化解读与风险防范的深入视角

2026年03月18号 21点44分18秒如何通过 Xfinity 获取 NFL Sunday Ticket 最高 $200 折扣并全面指南

深入解析通过 Xfinity 获取 NFL Sunday Ticket 折扣的资格条件、操作步骤、注意事项与替代方案,帮助观众在观看周日NFL比赛时节省开支并获得最佳观赛体验

2026年03月18号 21点45分36秒 NFL232323:Comcast 与 NFL Sunday Ticket 费用和优惠全方位解析

深入解析 Comcast(Xfinity)环境下如何获取 NFL Sunday Ticket 的可行途径、常见价格区间、优惠获取技巧与替代方案,并提供在遇到第三方站点无法连接时的安全建议和订阅策略

2026年03月18号 21点49分15秒在 Xfinity 上获取 NFL Sunday Ticket 的完整指南:订阅、配置与最佳观赛技巧

详尽说明如何通过 Xfinity 获取并优化 NFL Sunday Ticket 的观看体验,包含订阅要求、设备兼容性、功能说明、常见问题和替代方案,帮助球迷在周日享受更多跨市场比赛与多画面跟踪

2026年03月18号 21点55分22秒 2025年在Xfinity上获取NFL Sunday Ticket的完整操作指南与技巧

介绍如何通过Xfinity设备在2025年观看NFL Sunday Ticket的详细流程、设备与订阅选择、常见问题解决方法与网络优化建议,帮助用户在家中稳定观看美式橄榄球比赛并合理管理订阅与费用。

2026年03月18号 21点59分27秒 2024年Xfinity能订阅NFL Sunday Ticket吗?完整优惠与省钱攻略

全面解析Xfinity与YouTube对NFL Sunday Ticket的合作关系、订阅方式、价格与折扣策略,并提供实用观看设备、并发流、地区限制与替代方案的深入说明,帮助美国家庭在2024赛季以更划算的方式看全场外转播比赛

2026年03月18号 22点03分10秒 Xfinity NFL 套餐深度解析:如何用 Xfinity 观看 NFL、Peacock 与最佳观赛体验

全面介绍 Xfinity 针对 NFL 爱好者的套餐与观看方式,涵盖频道阵容、Peacock 服务、Xfinity Stream 应用、硬件支持、价格与节省技巧,帮助球迷选择合适方案并获得最佳观赛体验