引言 随着人工智能在桌面与移动环境中承担越来越多的任务,计算机使用代理(Computer-Use Agents,简称 CUA)正成为人们日常工作效率的重要推动力。从自动填表、预订行程到跨应用的信息整合,CUA 的能力取决于在复杂、长时长任务中保持稳定和可靠的执行。Agent S3 的出现提供了一条新的思路:通过简化框架并结合广泛扩展的多次运行选择机制,将不稳定性这一核心瓶颈降到最低,逼近人类水平的计算机使用能力。 背景与挑战 目前最难克服的一个问题是高方差。单次运行中的微小错误,例如误点、延迟响应或意外弹窗,会在长序列任务中逐步放大,导致成功率大幅下滑。即便是最强大的单次决策模型,也难以保证每次都能完美完成任务。
高方差使得用户体验不连贯,也限制了 CUA 在现实场景中的广泛部署。 Agent S3 的核心改进 Agent S3 在技术路径上延续了前代成果,同时引入了两项关键改进:框架上的简化与原生代码代理的加入。将此前的层级化管理器 - 工作器架构去除后,系统变得更直接、更轻量。原生代码代理能够在需要时生成并执行代码,使得代理在面对需要编程或脚本式解决方案的任务时具备更强的多样性与可靠性。单次运行下,Agent S3 在 OSWorld 的 100 步设置中达到了 62.6% 的准确率,已经超越了此前 61.4% 的最佳记录。 行为最佳取N(Behavior Best-of-N,bBoN):广泛扩展的关键 Agent S3 的真正突破来自于行为最佳取N(简称 bBoN)。
不同于依赖单次最优输出的传统做法,bBoN 通过并行或并发生成多次独立运行,然后在这些备选中挑选最有希望成功的那一次。多次尝试带来多样化的行为轨迹,正是克服高方差的关键。 事实抽取与行为叙述的作用 原始的运行日志往往冗长且噪声较多,直接比较原始输出难以得到可靠判断。为此,Agent S3 将每次运行转化为结构化的事实序列,提取出与任务成功直接相关的关键信息。将这些事实串联形成行为叙述,使得每次尝试可以被简明地表达与比较。基于行为叙述的评判器能够引用特定事实进行对比推理,从而在多个运行中识别出最可能成功的轨迹。
评判器的设计与人类一致性 选择哪个运行作为最终输出依赖于评判器的判定能力。Agent S3 团队发现评判器在 44% 的 OSWorld 任务中能够提升性能,评判器在这些任务中做出正确选择的比例为 78.4%。进一步通过人工复核,评判器的判定在更大比例的情况下被证明是合理的:人工评估显示评判器正确率可达 92.8%,这意味着在人类标准下的真实性能可能接近 76.3%。这种与人类偏好高度一致的评判机制,为将来自动化评估与选择奠定了基础。 在不同环境下的泛化能力 bBoN 对泛化同样带来了显著改进。在 WindowsAgentArena 上,单次 Agent S3 的准确率为 50.2%,而通过从多次尝试中选择,准确率提升至 56.6%。
在 AndroidWorld 上则从 68.1% 提升至 71.6%。这些结果表明,多次运行与基于事实的评判器能够在不同操作系统与界面风格下稳定地提升成功率,而不仅仅是在训练或评测环境中表现良好。 规模化带来的性能曲线 随着尝试次数的增加,性能呈现出逐步提升的趋势。以 OSWorld 为例,当尝试次数扩展到 10 次时,基于 GPT-5 的系统取得了最高 69.9% 的准确率,而基于 GPT-5 Mini 的系统则达到了 60.2%。这种通过"量"来换取"质"的方式证明了 bBoN 的可扩展性:在计算预算允许的情况下,更多的独立运行可以显著提高成功概率。 与先前方法的对比与意义 Agent S3 的思路不同于简单地提升单次模型能力或者通过更复杂的层级调度来控制流程。
通过简化框架与引入原生代码能力,系统提高了单次运行的基础可靠性;通过 bBoN,系统进一步通过多样化尝试和基于事实的评判来选择最佳轨迹。相比于仅靠更大模型或更复杂管理结构的方案,这种组合在计算和实现上更为现实且更易扩展。 实际应用前景 对于企业级办公自动化、个人助理型工具以及移动应用自动化,Agent S3 与 bBoN 提供了切实可行的改进路径。真实世界任务通常比基准测试更具复杂性和不可预测性,因而通过多次尝试捕捉到至少一次成功轨迹,能有效提升用户体验与信任度。原生代码代理还让 CUA 能够在需要编程或自动化脚本的场景下更灵活地解决问题,从而拓展了使用场景边界。 局限性与伦理考量 尽管 bBoN 已被证明能显著降低失败率,但这种方法对计算资源的需求更高,尤其是在需要大量并行运行时。
对资源受限的边缘设备或实时交互场景,如何在性能与成本之间取得平衡仍是挑战。此外,评判器的选择标准与训练数据也会带来偏差风险,必须确保评判机制的透明性与可解释性,避免在敏感任务中放大不必要的偏见。 未来研究方向 未来可从多个方向继续深化:优化事实抽取与行为叙述的精确度以减少误判风险;设计更高效的多次运行调度策略以降低计算开销;结合自适应预算分配的 bBoN,使得在资源受限时也能最大化成功概率;以及探索人机协同的评判流程,将自动评判与人工反馈结合以提升长期可靠性。 结语 Agent S3 与行为最佳取N 的结合展示了一条可行的路径,通过结构化事实抽取、行为叙述和评判器选择,从根本上缓解了长时任务中的高方差问题。实验证明,单次运行的改进加上多次尝试的选择,可以显著提升复杂任务的成功率,逼近甚至在某些评估下接近人类水平。面对日益复杂的桌面与移动自动化需求,这种"广泛扩展"理念为打造更可靠、更普适的计算机使用代理提供了重要方向。
未来的工程实践需要在性能提升、计算成本与可解释性之间找到更好的平衡,推动 CUA 从实验室走向广泛的生产与日常使用场景。 。