近年来,生成式人工智能(GenAI)工具如ChatGPT、Copilot等逐渐进入软件开发者的日常,许多科技巨头和企业纷纷吹捧AI将成为提升生产力、加速开发进程的革命性利器。英伟达CEO黄仁勋曾信心满满地表示,AI将带来更高的工作效率和经济增长。而美国国防部的人工智能负责人也将生成式AI视为维护战略优势的重要工具。然而,现实中,开发者使用这些AI辅助工具的效果并非一帆风顺。令人意外的是,多个独立研究揭示了一个令人深思的现象:经验丰富的开发者使用GenAI后,却表现出更低的效率。核心问题难道是AI不够智能吗?还是我们对AI的期待过高? 2025年初,非营利性AI研究机构METR发布了一项关于生成式AI对资深开源开发者生产力影响的研究。
研究对象均为平均拥有超过十年编码经验的开发者,所涉及的任务包括处理实际项目中的bug修复与新功能开发。参与者使用包括Cursor Pro、Claude 3.5/3.7 Sonnet等主流生成式AI工具辅助编程。令人震惊的是,开发者原本预期AI能缩短约24%的完成时间,事后也自认为加速了工作进度约20%。但研究结果显示,实际完成时间比未使用AI的对照组平均延长了19%。尤其是完成时长在六小时以内的短任务,AI辅助反而显著拖慢了进度。 根本原因在于多方面。
首先,编写有效的AI提示变成了开发中的一大瓶颈。看来,期望只需简单输入指令即可获得完美代码或方案仍过于理想化。正如谷歌Chrome开发者、同时也是jsdom维护者的Domenic Denicola所言,生成模型在准确执行复杂网页标准方面表现不尽人意。其次,生成代码的质量参差不齐,需耗费大量时间审查与修改。许多自动生成的代码不仅有bug,还潜藏潜在安全风险,开发者不得不反复检验,避免引入新问题。重复的校对、调试和重构耗费了本应节约的时间。
此外,生成式AI工具在实际工作场景中的表现与商业和媒体宣传形成落差。AI厂商倾向于夸大技术对提升效率的贡献,以吸引客户和投资者。从而形成一种错觉,使用AI定会带来显著效果。事实上,很多性能评估基于理想化的基准测试,这些测试往往忽略了软件开发过程中复杂多变的现实情境。真实项目面对复杂需求和严苛质量标准,生成式AI的效用仍显不足。 谷歌2024年的DevOps研究同样支持这一观点。
通过DORA报告,研究团队发现即便代码审查因为AI工具加快,但生成代码中存在较多错误,导致不得不投入额外时间进行修正和验证。团队反映,清理AI生成代码的“烂摊子”成为新的负担,未能实现如宣传般的提效。互联网的开发者社区也普遍认同这种看法。有经验的程序员在Reddit上的讨论中提到:“AI生成的代码能快速产出80%的内容,但修正设计缺陷、去除重复代码及排查错误却耗时巨大。相比直接动手编码,用AI反而更慢。” 类似状况在其他领域亦有所体现。
简单任务或草稿类内容,生成式AI的表现尚且可观,甚至让人耳目一新。但对于需要深入理解、严谨思考和长期维护的工作,AI辅助的成果往往难以胜任。技术作家Kaustubh Saini指出,“vibe coding” — 即依赖AI快速生成代码的方式,只培养出了“能够写代码但无法理解、调试或维护代码的开发者”。当代码出现问题时,这些开发者无能为力,反而阻碍了项目的顺利开展。 写作行业同样面临AI生成内容水准参差不齐的困境。越来越多报道、新闻甚至学术文献中出现明显错误和逻辑漏洞。
虽然有部分公司和出版商可以暂时容忍这种“表面合理”的内容,但随着时间推移,受众的辨识力和行业的质量要求必然提升,这种粗制滥造的AI内容难以长久存活。 面对这些挑战,开发者和企业需要清醒认识生成式AI的实际定位。AI目前尚不能替代扎实的专业知识和丰富的经验,而应被视作辅助工具,其帮助应当建立在理解和驾驭之上,而非盲目依赖。有效使用生成式AI,开发者需掌握如何撰写精准提示、判断代码质量与提升安全性等技能。与此同时,AI开发者也需针对实际工作流程进行优化,提升代码生成的准确度、安全性和适应性。 展望未来,生成式AI终将成为开发生态中的重要力量,但它的真正潜力能否实现,关键在于人机协作模式的改进。
只有当人工智能与经验丰富的开发者紧密配合,取长补短,才能真正释放AI带来的生产力革命。盲目宣传和对技术功效的过度期待不仅误导市场,也会削弱开发者的信心与积极性。理性的态度和科学的评估将推动行业走向更加健康、可持续的发展轨道。 总的来说,生成式AI工具目前仍处于不断成熟和完善的阶段,中央的课题在于如何结合专业开发者的技术实力,实现高效的辅助而非负担。对所有从业者而言,关键在于不断提升自身技能、理性看待技术优势与不足,才能在未来复杂的软件开发环境中游刃有余。