随着人工智能技术的飞速发展,基于大型语言模型(LLM)的网页代理正逐渐成为自动化互联网任务的重要工具。它们能够模拟人类浏览器操作,完成如预订行程、购物比较、信息检索等复杂任务。尽管市场和学术界涌现出多种此类代理系统,但缺乏统一、透明且可复现的评测标准,使得对各系统间性能的客观比较成为难题。在此背景下,Open Operator Evals应运而生,构建了一个开放、全面且真实的网络代理评测基准,为行业和研究界厘清现状提供了极大帮助。 Open Operator Evals基于WebVoyager数据集展开,这一数据集包含了约600项复杂多样的网络任务,覆盖航班查询、商品搜索、信息查找等日常浏览场景。考虑到网络环境和模型的非确定性特征,单次执行往往难以反映真实表现,因此该评测框架强调多次重复测评。
具体做法是在统一条件下对每项任务执行多次(8次),计算平均成绩,并通过独立的大型语言模型(GPT-4)对代理行为和结果进行客观判定,确保成功率的准确与公正。 评测涵盖了多个主流开源网络代理项目,包括Notte、Browser-Use和Convergence,它们各自采用不同模型架构和策略,展示了当前技术发展的多样性。在最近的WebVoyager30测试子集(30项任务)中,Notte表现最为突出,其自报成功率达86.2%,经GPT-4验证的真实完成率高达79.0%,且每项任务平均耗时仅47秒,表现出极高的效率和稳定性。此外,其任务可靠性达到96.6%,表明该代理在多次尝试中几乎总能成功完成任务,充分体现了系统的鲁棒性和优异的执行能力。 相比之下,Browser-Use虽然官方自报成功率高达89%,但在严格复现测试中,LLM验证成功率仅为60.2%,时长则接近2分钟每任务。这一差距体现了代理对自身执行结果的过度乐观估计,同时说明了开放评测的重要性,避免因缺乏透明数据支持而产生的片面认知。
关于Convergence,其成功率和验证率分别为38.4%和31.4%,明显低于同行,主要受到谷歌验证码和反机器人检测机制的影响。不过,Convergence展现出较强的自我觉察能力,其多次评测中自报和验证的对齐程度令人期待,如果攻克检测瓶颈,前景看好。 这些结果不仅揭露了现有代理系统的差异,更反映出网络自动化在面对真实且动态的互联网环境时,仍然存在诸多难题。网络页面快速变化、反自动化检测措施不断升级、非确定性语言模型推理带来的偶发错误,都极大增加了系统设计与评测的复杂性。Open Operator Evals通过重复执行、高度透明的日志和回放机制,为深入分析和持续优化提供了坚实基础。开发者可以通过公开的回放文件详细追踪代理执行步骤,发现问题根源,快速迭代改进。
在评价指标上,Open Operator Evals创新性地引入了“任务可靠性”这一概念,定义为代理在多次尝试中至少完成一次任务的比例,这弥补了传统平均成功率对偶发失败的不敏感。同时,“Agent Self-Report”与“LLM Evaluation”分别衡量代理自信心与客观完成情况的差异,通过计算两者比率(Alignment Ratio)量化代理对自己表现的准确度,避免过度乐观或者悲观估计带来的误导。 此外,项目针对评测成本进行了详细说明。部分代理(如Notte和Convergence因为使用开源模型)能够零成本执行评测,而Browser-Use依赖昂贵的GPT-4模型,单次完整评测约花费20美元。这种透明的成本分析让团队可以权衡测评准确性与资源消耗之间的平衡,促进经济高效的研究方法发展。 Open Operator Evals的设计理念强调完全透明和开放协作,所有代码、配置和评测结果均免费公开,支持研究者和工程师自定义场景,复现和扩展实验。
其依托Python和Jupyter Notebook技术栈,兼顾便捷性和专业性,让不同水平的用户都能快速上手。该项目也积极招聘软件和研究工程师,期望汇聚更多人才,共同推动智能网络代理的未来。 未来,Open Operator Evals有望成为网络代理性能评估的行业标准和学术界公认的基准测试。通过持续扩大任务覆盖范围,优化评估模型和引入更多样化的环境配置,将为LLM代理能力的提升提供最直接、有力的反馈。从长远来看,这将促进智能浏览器、自动化客服、电商助手等应用场景的革新,极大提高人机交互效率和用户体验。 总之,Open Operator Evals凭借其真实环境、多次重跑、独立客观评价三大核心优势,填补了LLM驱动网页代理领域评测空白。
它不仅揭示了主流系统的强弱项和潜力,也为社区注入了开放透明、科学严谨的文化氛围。随着技术进步与生态完善,未来自动化Web代理将更加高效可靠,而Open Operator Evals的存在保证了我们对这一趋势的持续洞察和公允评估。