概述 近来的基准测试与社区讨论揭示了一个有趣的现象:Claude Sonnet 4.5 在代理式编码(agentic coding)场景中以一种不同于传统"速战速决"的策略取得了显著成绩。基于 SWE-bench 在 bash-only 最小化代理设置下的数据,Sonnet 4.5 在该设置上的通过率达到约 70.6%,并且在多个维度上显示出与其他领先模型不同的解题节奏与成本特征。要理解它为何"这么擅长",需要把视角放在模型的行为模式、代码问题的可验证性、以及工程化配套所带来的协同效应上。 从数据看策略:更多步骤但更高成功率 对比实验揭示了明显的"步数模式"。Sonnet 4.5 平均需要更多的编辑步骤(约 47 步)来完成任务,而其前代模型平均约 32 步。更有意思的是,尽管步数更多,Sonnet 4.5 的成功率更高。
这种表现意味着模型并非试图在少数几次巨幅重写中一锤定音,而是在大量小而精的改动中逐步收敛到正确解。 代码问题非常适合这种策略,因为每一步的改动都可以被即时验证。与创作类任务不同,代码可以被语法检查、运行并对具体测试用例进行验证。每次小改动都会产生明确的反馈信号,从而使代理能够稳步修正偏差、聚焦缺陷区域,而不是在一次大改动后面对全面回滚的复杂性。 成本悖论与效率权衡 另一个值得注意的发现是成本上的"悖论"。某些更大或每令牌更昂贵的模型(例如文中提到的 Opus 4)在每令牌成本上远超 Sonnet 4.5,但在完整 SWE-bench 运行中的总成本差距并没有按单令牌价成比例放大。
原因部分来自不同模型的步数与令牌消耗策略:更"快速"的模型可能在较少步骤内给出解法,从而节省上下文和交互成本;而更"谨慎"的模型在更多回合中消耗更多令牌,但通过更高的最终成功率减少了重试与人工干预带来的额外开销。 长期自治能力与耐心策略 Anthropic 在 Sonnet 4.5 的发布资料中提到模型可在一定条件下实现长达数十小时的自主运行能力。更长的运行稳定性为"耐心迭代"提供了实践基础:当代理可以连续维持数小时甚至数十小时的状态并在其中反复运行测试、提交修改与评估反馈时,渐进式策略能够发挥最大效能。许多早期模型在长时间持续任务中容易出现"走神"或上下文漂移,无法稳定实现连续深度迭代。 为什么迭代比一次性大改更合适代码任务 代码具有可验证性和模块化结构,这使得小步快跑的策略具有天然优势。每一次小改都可以:通过静态检查检测语法错误,通过单元测试和集成测试验证功能是否退化,通过差分运行确定哪次修改触发了新问题。
局部性原则(locality)在代码修复中极为重要:问题通常集中在小范围内,而逐步收敛能更好地定位根因,并在最小风险下验证修复有效性。 此外,频繁的小步迭代减少了每次变更的认知负担,便于回溯与审计。对工程团队而言,这种细粒度的修改更容易与现有 CI/CD 流水线对接,也更便于引入人工检查点与安全审查。 与"快解"模型的对比:规划与令牌效率 另一类模型表现为更少的编辑步骤与更强的规划能力,例如文中提到的 GPT-5 在平均步数上显著更少,表现出更高的令牌效率和更强的全局规划倾向。两种策略各有利弊:快速模型在交互次数和令牌消耗上更省,适用于对延迟敏感或预算紧张的场景;耐心迭代型模型更注重可靠性与鲁棒性,适合对正确性要求高的复杂编码任务。 工程实务建议:如何让 Sonnet 4.5 风格的迭代发挥最大效益 构建能支持大量小步迭代的系统比单纯选择模型更关键。
要充分利用 Sonnet 4.5 这种耐心策略,工程师与平台需要在以下方面做优化。 首先是高速、轻量的验证管道。测试用例应尽可能快地执行,增量测试与基于影响范围的测试策略能显著提高每次迭代的反馈速度。静态分析工具、语法检查器与单元测试缓存都能减少不必要的等待时间。 其次是差异化改动的高质量表示。将修改限定为最小补丁并清晰描述改动目的,既能帮助模型聚焦,又便于审计与回滚。
自动生成的变更描述应包含触发测试失败的最小可复现示例与预期行为。 第三是智能终止与资源管理策略。由于迭代次数更多,设定合理的早停准则、质量阈值和重试上限能避免无限循环。对每次迭代的收益进行估计并在边际收益低于成本时终止,可以把时间与金钱资源用在更有价值的任务上。 第四是混合策略的应用。在许多场景下,将一次性规划与随后细粒度修复结合使用能兼得两者优势。
先让模型执行总体设计或草案生成,再使用迭代机制进行局部修补与测试,既减少了无谓的探索,又保证了最终代码的可靠性。 安全与可控性考量 长时间自治的代理带来了工程便利,但同时也提出安全与可控性挑战。沙箱化执行、依赖隔离、权限限制以及变更审计是必要的防线。每一次自动提交都应附带可回溯的元数据:是什么触发了改动、用到的测试集、失败的输入样例以及模型自述的修复理由。 此外,持续监控模型行为与输出质量对防止概念漂移、数据中毒或意外的架构变更至关重要。针对自动化代理的异常检测和人工干预管道应当是系统设计的一部分,而不是事后补救措施。
评估指标的重新定义 传统以令牌消耗或交互次数为核心的效率指标在代理式编码中需要与成功率、调试成本和总拥有成本(TCO)结合起来考量。一个高步数但高成功率的模型在整体工程效率上可能优于低步数但需要较多人工复核的模型。因此应当设计复合指标,将步骤数、成功率、平均修复时间、人工介入频次及运行成本加权后作为评价体系。 面向未来:模型与基础设施的协同演进 Sonnet 4.5 展示的耐心迭代策略提示我们,改进编码代理的路径并不只是提升单步推理能力或缩短响应时间。更重要的方向包括训练模型更好地理解局部变更影响、优化其在长对话或长任务中的记忆稳定性,以及在代理层面引入成本感知和收益估计机制。 与此同时,平台应提供低延迟、高并发的测试环境、版本化的代码沙箱、以及对长时间运行代理的状态管理支持。
只有模型能力与工程基础设施协同进化,才可能在成本可控的前提下发挥迭代策略的全部威力。 结语 Claude Sonnet 4.5 在代理式编码场景中之所以显得"这么好",并非单一因素可解释。它的耐心与系统化迭代方法、代码可验证性的天然优势、以及能够持续运行的稳定性共同促成了更高的成功率。与更"速战速决"的模型相比,Sonnet 4.5 展现出一种以可靠性换取更多交互的策略,这种策略在工程化良好的环境中常常带来更低的总成本和更高的可交付质量。 未来我们可能看到不同风格的模型并存:快速求解器适用于低延迟与预算受限场景,耐心迭代器适用于高可靠性需求的复杂任务。对开发者与平台设计者而言,关键在于为耐心策略提供必要的基础设施、制定合理的评价指标,并在实际工程流程中灵活地将规划与迭代结合,才能真正把像 Sonnet 4.5 这样的模型能力转化为可持续的生产力提升。
。