随着人工智能技术的高速发展,越来越多的软件开发团队开始尝试将AI辅助工具引入日常编程工作,以提高生产效率和代码质量。然而,AI是否真正能够加速开发,尤其是在复杂且庞大的开源代码库中,仍然存在较大争议。近日,METR发布了一项题为“测量2025年早期AI对经验丰富开源开发者生产力影响”的研究,引发了行业内广泛关注。这项基于随机对照试验的方法,为我们提供了宝贵的实证数据。作为研究的参与者之一,资深jsdom项目维护者Domenic Denicola分享了自己在整个试验过程中的真实感受、遇到的问题以及对AI辅助编码效率的深刻见解,为我们理解AI与软件开发结合的现状提供了独特视角。jsdom作为一个用JavaScript尝试实现大部分网页浏览器引擎功能的项目,拥有超过一百万行代码。
它被广泛用于自动化测试和网页爬取,依赖严格遵循网页规范和通过相关测试套件的能力稳定发展。自2012年开始接手项目,Denicola一直是其唯一活跃维护者,主要任务为处理社区贡献的pull请求。本次参与METR研究,使他得以暂时搁置日常维护工作,专注于解决项目积压的bug、功能需求、基础设施问题以及测试覆盖缺口等一系列中小型任务。研究设计要求参与者预先准备多项预计工时不超过两小时的工作内容,他最终确定了19个任务,每个任务后均需提交至少一个pull请求及详细的“实施报告”,记录工作体验尤其是与AI协作的感受。整个工作耗时约一月,主要分布于周末,总计屏幕录制显示其投入时间达到31.25小时,参与费用按每小时150美元支付。屏幕录制的设置确保了工作时全程专注,减少分心和多任务干扰,对数据的真实性提供保障。
METR研究的惊人发现是,使用AI辅助的任务平均完成时间比无AI辅助的任务反而延长了19%。统计置信区间约为-40%至-2%之间,这意味着AI辅助并未体现出预期的加速效果。Denicola本人完善阐释了随机对照试验的科学逻辑,指出并没有让同一开发者针对同一任务同时完成有无AI的对比测试,而是在大量任务中通过统计模型评估整体趋势,避免了因个别任务异常影响结果。他强调个案的超时或提前无法代表整体,只能依靠大规模数据的累积效应判断AI真实效用。Denicola坦言,他此前并未深度使用过诸如Cursor代理模式等新兴智能编码代理工具。由于在谷歌Chrome团队的工作限制,其日常工作不得使用外部甚至部分内部AI工具,只能在周末业余时间通过GitHub Copilot等传统辅助和网页聊天接口体验AI带来的帮助。
这种有限经验并非他觉得生产力未提升的主要原因。他认为真正影响效率的是AI工具与大型老牌代码库的适配困难、任务类型的复杂程度以及AI模型本身的可靠性和智能水平。回顾2025年3月,AI辅助工具整体仍处于初期快速迭代阶段。Claude Code预览版刚刚发布,Cursor代理模式成为默认仅一个月左右,许多基于代理的多任务协调系统尚未出现。Denicola主要使用Cursor代理,配合Claude Sonnet或Gemini模型完成任务。他发现,AI在融入如此庞大且结构严谨的jsdom代码库时,面临诸多挑战。
比如AI生成测试代码时,往往无法遵守代码风格规范,频繁产生重复或者冗余注释,未能准确复现bug场景而是自己“创新”,测试名称命名不统一等。即便多次调整提示词,仍偶尔出现上下文溢出导致内容失控,需要反复重启会话和恢复提示,极大浪费时间。其次,AI在阅读与实现Web标准规范方面表现不佳。Web规范本质上是特殊形式的代码文档,按理应该是自然语言模型的强项。但由于训练数据中包含过时或错误版本,AI模型反而倾向于凭印象生成近似代码,而非严谨解读规范。Denicola戏称在与Gemini 2.5 Pro争论CSS层规则中的常量命名问题时,AI竟然固执坚持添加一个规范之外的常量,并用花言巧语为自己辩护,体现了模型“幽默”的误导作用。
在实际工作中,Denicola意识到AI辅助开发有如双刃剑。一方面,AI能使重复性较高的任务变得有趣,让开发者以交互游戏心态尝试让代理自动完成尽可能多的工作,从而缓解乏味;另一方面,频繁的错误、代码风格不合、需要持续纠正和监督,导致整体效率下降,对任务进度形成显著拖累。他强调,非AI辅助的任务时他可以直接投入编码,集中精力快速完成,效率自然更高。Denicola还详尽列举了当下AI助手面临的多项不足,包括无法跨多个代码库协调工作、生成的代码缺乏精致度和优雅性、容易陷入循环错误处理逻辑、文件搜索效率极低等。他认为这些缺点都有望通过改进底层技术、加强工具链集成和定制化提示策略得到缓解。Future AI编码工具若能实现代理间同时并行工作,配合开发者负责内容审核和引导,或许能大幅提升生产力,但当前单任务逐步完成的模式还难以展现优势。
Denicola反思自己在研究期间未曾投入精力编写定制规则或自动化服务器脚本,这些自动化投资需在更长期且稳定的工作场景中才划算。他看好通过更多时间“驯服”AI工具的可能,认为个人效率有提升空间,尤其是建立适合特定项目的辅助体系后。然而,对于即时尝试使用AI辅助处理开源项目积压任务,回报率尚不理想。他提出未来最大潜力存在于“多代理并行作业”的模式,提前设计详尽问题描述和实现建议,分派多个智能代理同时执行不同任务,配合人工审核和修正,将极大提高整体开发效率和响应速度。总结来看,Denicola的亲身经历印证了METR研究结果,深刻揭示了当前AI辅助编程工具在应对大规模、复杂且需高度一致性代码库时的现实局限。O众多尚未完善的技术细节和流程,令AI在这样的环境中未能真正发挥其潜能。
而这也为业界指明了未来努力的方向:模型升级、上下文理解能力增强、项目定制化指导工具建设、多任务并行协作机制设计,以及更智能的错误自动校正系统。随着这些技术逐步成熟,开发者将能更好地利用人工智能缩短开发周期,提升代码质量。作为经验丰富的项目维护者和前沿AI工具使用者,Denicola的洞察为业内提供了宝贵参考,促使我们对AI辅助编程保持理性期待,同时激励相关从业人士不断推动技术革新。未来,人工智能或将成为编程领域不可或缺的助力,提升人类创作效率,释放更多创造力与时间,开创软件开发的新纪元。