人工通用智能(Artificial General Intelligence,简称AGI)这个概念在过去十多年里从学术讨论走入公众视野,伴随大量争议、炒作与科幻式想象。到底什么才算AGI?是否有统一的定义?应该如何评估与构建?这些问题既是理论问题,也是实践问题。借鉴Michael Timothy Bennett在论文《What the F*ck Is Artificial General Intelligence?》中的观点,并结合近年的发展,可以把AGI的讨论拉回到更可操作、更科学的层面上。以下从定义、基础工具、架构与方法论、现有示例、主要瓶颈与未来方向等维度展开解析,帮助读者既理解概念也把握研究与工程的关键取向。 定义:以适应性与科学家隐喻为核心 对"智能"的定义五花八门。传统认知科学、哲学和工程学的视角各执一词。
Bennett主张将智能理解为适应性,即系统在多变环境中通过行为或内部模型调整以实现目标的能力。把AGI进一步具体化为"人工科学家"是一种富有启发性的比喻:一个真正的通用智能不仅能完成单一任务,而是能像科学家一样提出假设、设计实验、从数据中归纳规律、修正模型并创造新方法或工具。这个定义既强调了问题空间的广度,也把学习、推理、元学习与创造统一起来,避免把AGI狭义地理解为"能赢得国际象棋或围棋的系统"。 两把基础工具:搜索与近似 无论采用何种架构,Bennett指出有两类基础工具反复出现且彼此互补:搜索(search)与近似(approximation)。搜索是通过探索可能的行为、模型或程序空间来找到解决方案,代表性的理论包括强化学习中的策略搜索与理论AI中的最优程序搜索。近似则指用函数逼近、统计模型、神经网络等方式把复杂的环境映射为可计算的形式,从而在有限资源下进行预测与控制。
Sutton的"苦涩教训"(The Bitter Lesson)强调长期来看,扩展计算与通用的逼近器胜过过多的领域知识工程;Bennett借此说明AGI的建设往往需要把搜索与强大的近似能力结合起来,而不是单纯依赖某一类手段。 架构与代表性系统的比较 现实中我们看到多种架构路线互为补充。AlphaGo与其后继者展示了在特定复杂任务上把蒙特卡罗树搜索与深度神经网络结合的威力。像o3、AERA、NARS和Hyperon等架构则提供了不同的设计哲学:有的强调符号-连接主义混合,有的强调基于代谢式学习与描述逻辑的推理,有的关注记忆、知识整合与长期自我改进。AERA(Adaptive Error-driven Robot Architecture)倾向把预测误差与自下而上的学习结合,用于机器人持续学习。NARS(Non-Axiomatic Reasoning System)强调不完备与有限资源下的推理策略,主张在不确定环境中采用"不完备推理"。
Hyperon等强调模块化、知识图谱与可解释的长期记忆管理。不同系统各有优劣:有的在样本效率或解释性上占优,有的在可扩展性与通用性上表现更好。 元方法论:scale-maxing、simp-maxing与w-maxing Bennett提出了三种宏观策略来理解当前与潜在的AGI发展路径。scale-maxing是指通过极大地扩展计算资源、数据规模与模型参数来迈向更强的智能,这条路线的代表就是近年的大规模语言模型与所谓的"Embiggening"现象,即模型通过扩大规模而获得新的能力。simp-maxing基于奥卡姆剃刀(Ockham's razor),强调模型形式的简洁性,即用更简单、更通用的模型构建认知系统,往往更易解释与调试。w-maxing则反映了Bennett自己的"剃刀"思考,指最大化功能性约束的弱化,让系统在更少人为限制下自由发展,这类似于鼓励系统自组织、自发现策略的方向。
现实研究往往是这三者的混合体:大规模模型带来能力跃迁,但若无合适的简洁核心与自由探索机制,很难实现可控的通用智能。 理论极端示例与哲学视角 理论上有些框架可以被视为AGI的终极极限。AIXI是一个理想化的理性体模型,基于贝叶斯与算法信息论,理论上在无限计算资源下实现最优决策。但AIXI不可计算,更多是作为规范性的参考。自由能原理(Free Energy Principle)由Friston提出,试图把生物体的感知与行动统一为最小化自由能的过程,这为理解智能提供了一个系统性的数学框架,但其可操作化和工程实现仍有争议。这些理论提醒我们AGI既需要工程性方法,也需要明确的理论支撑,否则难以预测系统行为或确保安全可控。
Embiggening:大模型规模化的经验教训 语言模型的"Embiggening"展示了一个显著事实:通过增加参数与训练数据,模型往往会出现超出预期的新能力。这一点与Sutton的观点一致,通用的函数逼近器配合大量计算资源能学到许多复杂模式。然而Embiggening也带来了新的瓶颈。首先是样本效率问题:为了获得少量新能力,往往需要大量数据与训练步骤。其次是能耗问题:训练与推理的能源成本正在成为限制扩展的关键因素。此外,大规模模型在可解释性、鲁棒性与对抗性方面存在短板,单纯扩展难以自动解决这些问题。
样本效率与能耗:当下的真正瓶颈 硬件进步曾推动AI能力快速提升,但到了今天,硬件并非唯一瓶颈。样本效率,即如何在有限数据下学到泛化能力,成为必须攻克的问题。少量学习、元学习、强化学习中的高效率策略、模拟与现实的迁移学习,都是缓解样本饥饿的重要方向。与之并行的是能效优化,从模型架构到训练方法再到芯片设计,都需要面向低能耗和高计算效率的协同设计。未来AGI的可持续路径很可能依赖于在样本效率和能效上取得突破,从而在不无限制扩大硬件的前提下继续提升能力。 安全性、可解释性与社会影响 把AGI视为"人工科学家"意味着它能自主提出假设并采取行动,这带来了巨大的社会价值与潜在风险。
可解释性是核心挑战之一,决策链条越复杂,审计与责任归属就越难。安全性也不仅仅是避免错误输出,更多涉及系统在长期交互中可能出现的目标偏移、奖励黑箱以及被滥用的风险。政策制定者、研究者与产业界需要共同制定评估标准、研发安全基线与审计机制。法律与伦理规范也必须与技术进步同步,避免出现监管滞后带来的系统性风险。 如何评估AGI:从任务基准到过程指标 评估AGI不能只看单项任务表现。需要同时考察系统的广度、迁移能力、元学习效率、长期自我改进能力与解释性。
任务基准仍有价值,但应补充过程性指标,例如学习曲线的斜率、在新领域的少样本适应速度、在开放世界中维持目标的一致性等。构建更接近"科学家"角色的评估环境,允许系统提出问题、设计实验并从有限数据中归纳,是衡量通用性的重要方向。 研究与产业的可操作建议 研究上应在三条主线并行推进:以大规模逼近器推动能力上限,同时研发高样本效率的学习算法以降低数据需求,和发展透明可解释的模块与规范以保证安全可控。在工程层面,混合架构可能是现实路径:把大型预训练模型作为通用感知与生成模块,结合符号推理系统、规划器与长期记忆管理来实现更强的推理与可控性。政策与伦理方面,需要早期介入,建立测试基线、公开风险评估与跨国协作机制。 结语:AGI既是工具也是过程 回到问题"AGI到底是什么",把它当成一个静态目标容易误解。
更合理的视角是把AGI看作一系列能力的组合与持续演化过程:适应性、元学习、问题发现与解决、知识整合与创造。Bennett的论文提醒我们,理解AGI需要把理论、工程和策略结合起来:认识到搜索与近似是双核工具,理解规模化带来的短期收益与长期瓶颈,并在simp-maxing与w-maxing之间找到平衡。未来的AGI不会来自单一魔法公式,而会是一组工具、架构和实践的融合,既要追求能力的增长,也要在样本效率、能效与安全性上做出突破。对研究者和决策者而言,真正的任务是构建既强大又可控的系统,让通用智能服务于人类长远利益而非成为不可控的黑箱威胁。 。