人们常问:大型语言模型(LLM)像GPT这类系统算不算智能?表面上它们能写诗、解题、对话,表现得像极了理解世界的主体,但深入思考后你会发现一个核心差异始终萦绕 - - 经验。经验不是简单的记忆或数据堆积,而是一套包含目标、行为、期望、执行与判断的闭环过程。真正的智能,是通过反复的经验循环不断塑造内部结构与策略,而目前的主流LLM在关键环节上有所缺失,因而它们的"智能"与生物智能有本质不同。 要理解经验为何如此关键,先从一个最基础的要素说起:目标与奖励。动物并非在被动地堆积信息,而是被各种目标和奖励驱动着采取行动。饥饿驱动寻找食物、社交驱动寻求群体接纳、好奇心驱动探索未知。
目标带来期待,而期待又生成行为选择。LLM的训练目标看似类似,但实际上是被"纹在身上的"单一目标:预测下一个词,最小化数学误差。这种目标在训练完成后被固化为模型权重的分布,模型运行时并不主动去追求超出文本预测的任何外部奖励。系统提示(system prompt)虽然能改变模型的"人物设定",但那不过是输入模式的改变,而非模型内部目标的变化。模型不会"想要"帮助用户或想要获得某种外部回报,它只是基于训练过的统计模式去生成最可能的文本序列。 目标带来行动,而行动则是代理行为的本质。
生物体会为了达成目标主动影响世界,采取探索、试错、计划与调整的连串行为。这样的代理行为是有目的、有驱动并且具有延续性的。相较之下,LLM是高度被动的:除非收到提示,否则它不会自发地输出或改变环境。它的每一次"行动"仅是对输入的一次概率计算,缺乏自主发起行为的能力。把LLM比作一个演员并不夸张:演员可以根据剧本完美诠释救人或伤人,但他们没有剧中角色那样真实的目标驱动与后果感知。真正的代理,需要在目标、预期与环境之间建立连续的因果循环。
期望与内部模拟是智能中至关重要的一环。动物在行动前往往会生成关于未来的心理模拟:如果我这样跳,老鼠会不会被抓到;如果我这样回避,这条河是否安全。这样的前景预测使得行动不是盲目尝试,而是基于模型的规划。LLM虽然能生成关于未来的文字描述,但这些"期望"并不是其自主产生的世界模型用于行动预测。它的内部计算主要是对过往语言模式的统计整合,关于未来的任何推测不过是基于已见文本的概率输出,而非为实现特定目标而生成的前瞻性计划。 行动的执行与对结果的判断构成了真正学习的闭环。
动物在一次行动后会观察结果并进行价值判断:成功时强化相关路径,失败时调整策略。正是这种可塑性的反馈回路,让经验得以沉淀为技能、习惯与知识。LLM在常见部署下缺少内在的评估机制:模型不会主动判断自己输出的正确性或实用性,用户或外部系统的反馈也无法直接修改其内部权重。即便有反馈,主流做法是通过离线的微调或强化学习(例如RLHF)批量更新,而不是实时、自主的在线学习。 另一个决定性问题在于知识的存储方式。大规模神经网络把知识编码为分布在亿万参数中的模式关系,而不是像图书馆那样把事实逐条索引保存。
这样一来,想要给模型添加或修正少量事实,并非简单地插入一条新纪录,而可能牵动与之相关的无数权重,导致已学习能力的崩塌,这就是所谓的灾难性遗忘。把训练好的模型比作一支多年合练的交响乐团并不为过:随意修改某个乐手的演奏方式,可能会破坏整体和谐。真实世界中的动物则通过多层次记忆体系(包括情境记忆、运动记忆和感官记忆)实现新增经验的整合,其神经可塑性在不破坏既有功能的前提下持续重塑网络。 面对这些差异,我们需要认识到LLM当前的限制并非技术细节可轻易修补,而是体系结构和学习范式的根本差别。若希望机器具备类似动物的经验学习能力,必须重构几个关键要素。首先需要多目标与可变的奖励结构,而非单一的下一个词预测目标。
这意味着模型在运行时能够评估外部奖励并主动选择行为以最大化长期收益。其次需要赋予模型代理性与环境交互的能力,支持实时感知、行动并从结果中自我评估。第三需要更灵活的记忆体系,能同时容纳长期知识与短期经验,并通过机制避免灾难性遗忘。 在研究与工程层面已有若干可行路径值得探索。检索增强生成(RAG)与外部知识库是一种折衷方案,通过将可更新的事实存放在外部模块,语言模型可以在不直接修改核心权重的前提下访问并利用最新知识。参数高效微调方法,如LoRA、Adapters或增量训练,可以在局部范围内更新能力,降低对整体模型稳定性的冲击。
元学习与少样本学习使模型更擅长从少量经验中快速适应。贯穿这些方法的是一个共识:将"记忆"和"推理"组件模块化,使系统既能保留大规模预训练带来的广泛能力,又能在局部学习上展现灵活性。 更接近生物智能的方向则强调具身性(embodiment)与强化学习。具身智能体通过与物理或模拟环境互动获取连续反馈,从而在目标驱动的循环中形成技能与模型。强化学习提供了目标与奖励框架,而在线学习、经验重放(replay buffer)、策略正则化等方法可以缓解灾难性遗忘,支持持续学习。为实现长期稳定性,研究者还在探索双重记忆架构、稀疏激活网络、可组合模块与超网络等新范式,力求兼顾稳定性与可塑性。
这些方向并非没有挑战。允许模型在运行时改变自身参数涉及安全、可靠性与可解释性的重大问题。模型若具备自主学习能力,如何保证其学习目标与人类价值一致?如何防止恶意或偏颇反馈导致模型偏离原有能力或产生有害行为?构建可控的奖励设计、透明的更新审计与人类监管机制,将是并行的必要工作。另一方面,评估具有持续学习能力的系统需要新的基准与方法,传统的静态测试集无法衡量模型在长期交互与适应中的表现。 认识到经验对于智能的核心作用,也会改变我们对当前LLM能力的解读。它们在许多任务上展示了惊人的表现,但那种"智能"更多来自于统计泛化与大规模文本中的模式再现,而不是来自于在世界中以目标驱动的方式反复试验与自我修正。
把LLM视为能模仿智能行为的高级工具比把它视为拥有自主理解与价值驱动的主体更为准确。与此同时,研究如何让机器拥有经验学习的能力,是通向更强健、更适应性智能的重要方向。 展望未来,经验驱动的智能需要技术与伦理的双重进步。技术上,需要把外部知识存储、模块化记忆、在线更新机制与稳健的强化学习集成起来,构建既能持续适应又不失稳定性的系统。伦理上,需要制度化的监督、透明的反馈渠道与安全设计,确保任何实时学习的系统都在可控的轨道内演化。若能在这两条路径上取得突破,就有可能从"会说话的数据库"走向真正能在世界中行动、预测并从结果中学习的智能体。
回到起点,经验不仅是信息的堆叠,而是目标驱动的行动与判断的循环。正是这种循环,让记忆得以沉淀、技能得以形成、判断力得以锤炼。理解并尊重经验在智能形成中的核心地位,有助于我们更清醒地评估现有技术,也为未来的研究指明方向:真正的智能,必须能在世界中体验、失败、修正并成长。 。