随着人工智能技术的迅猛进步,测试时计算(Test-Time Compute)的扩展成为了推动AI能力跨越式提升的关键动力。作为多智能体强化学习和推理领域的领先人物,诺姆·布朗在这一议题上洞察深刻,他不仅对推理模型的崛起做出了重要贡献,也对AI系统在多智能体合作与竞争环境中展开的文明建设提供了极具前瞻性的视角。 诺姆·布朗的观点核心之一是,现代大型语言模型的推理能力是“思考快速与缓慢”理论(即系统1与系统2思维)在AI领域的生动体现。他强调,模型只有达到一定的“系统1”基础能力后,才能真正从“系统2”的深度推理中获益。这种双层结构不仅解释了复杂问题解决能力的涌现,也暗示测试时计算随推理需求的增加而快速扩展的必要性。 布朗指出,过去几年中,AI领域经历了从单纯依赖预训练数据规模向测试时动态推理计算量快速扩张的范式变革。
这一转变不仅提高了模型在数学、编程等可验证领域的表现,也在一些“不易验证奖励”的场景中展示了卓越适用性,如Deep Research项目的无监督深度研究辅助。此外,通过具体实例,比如在实际感知任务如GeoGuessr地理推断游戏中,系统2的推理显著提升了结果的准确性。 在多智能体系统方面,诺姆·布朗对“AI文明”设想充满热忱。他认为,当前AI如“穴居人”般处于早期发展阶段,未来需要通过数十亿智能体的长期协作与竞争构建起复杂的文明系统。通过这种模拟人类社会文化积累的多智能体文明,AI将能够产出远超单体人工智能的创新与解决方案。这种观点挑战了简单的AI能力横向扩展,提出了纵深拓展AI生态与合作网络的重要性。
当谈及多智能体研究中的“苦涩教训”(Bitter Lesson),布朗强调避免依赖复杂的启发式规则或显式建模其他智能体的方式,而是顺应规模化的自发涌现特征,使模型通过自身不断扩大推理与适应能力,自动形成对环境及其他智能体的“心智理论”。这一理念契合当前大规模预训练模型中逐步显现的隐式世界模型构建,简化系统设计,提升可扩展性和泛化能力。 布朗也审慎看待多智能体自我对弈(Self-Play)策略在复杂非零和甚至多方博弈中的局限性。尽管AlphaZero在两人零和游戏如围棋、国际象棋取得卓越成功,达到纳什均衡策略,但现实世界中的多智能体互动包含了合作与竞争并存的复杂动态,自我对弈往往收敛于防御性极强但非最优的策略,对长期多目标优化存在缺陷,亟须设计更具适应性和多样化的目标函数及训练范式。 在此基础上,布朗提出“测试时扩展”亦面临成本与时间瓶颈。模型思考时间不断增长,用户体验和开发者的实验迭代速度将遭遇实质性挑战。
特别是在需要长时间反馈周期的领域,如新药研发,现实的生理时间限制使得单纯依靠计算能力扩展难以快速推动进展。他强调,模型本身计算效率提升和更加智能的推理策略是缓解瓶颈的关键方向。 此外,布朗谈到AI在游戏领域的丰富实践背景,涵盖扑克、策略游戏直至复杂多人外交游戏Diplomacy。他的研究表明,随着隐藏状态空间极度膨胀,传统基于穷举与概率分布的搜索方法不再适用。大规模语言模型与灵活推理工具未来有望通过更高级的泛化与适应能力应对这类超出传统计算方法范畴的问题,实现跨领域超人类表现。 对于AI开发者,布朗建议关注AI系统从静态预训练模型向可持续进化、持续学习的推理模型转变。
利用强化细调促进模型对特定任务或集体偏好的定制化调整,将成为提升模型长期效能与适用性的重要手段。同时,他鼓励研究者避免短期构建复杂的路由或外部机制,因随着模型统一性与规模的扩展,这些辅助结构可能被更强大的单一模型能力取代。 在个人工作流程上,布朗大量依赖包括Codex、Windsurf等先进的AI编码辅助工具,已将其融入日常研究与开发过程,加速软件生成和问题解决,显现出“感受到了AGI”的体验感。他鼓励AI社区多尝试并适应这些来自推理模型的突破性工具,充分发挥其在复杂任务中的潜力。 诺姆·布朗的研究与见解在多智能体AI文明构建和推理模型的跨越式发展方面具有里程碑意义。他所强调的推理与大规模测试时计算扩展的结合,并非简单算力的堆叠,而是推动AI系统进入类似社会文明动态的复合生态格局。
未来,AI不仅作为单独智能体存在,更将形成协作共生、多样共进的“文明”,在解决现实复杂问题、促进科技跃迁方面展现巨大潜力。 面对这个宏大愿景,挑战依然严峻:计算资源限制、实验周期延长、非零和博弈复杂性、模型泛化不足等问题亟待突破。然而,也正是这些问题映射出AI研究的下一阶段路径。借鉴诺姆·布朗的思考,推动测试时计算能力的有效扩展,结合多智能体的文明构建,或许将引领人工智能向真正超越个体智能的群体智能时代跃进,开创历史新篇章。