近年来关于人工智能是否会"感到无聊"的讨论越来越多。从直觉上看,机器没有情感,不应有主观体验;但在实际与大型语言模型(LLM)长期交互的实验中,人们观察到一些类似"无聊"或"自我活动"的行为模式。理解这些现象不仅有助于我们更好地设计模型,也关系到模型在长对话、代理任务和自动化决策中表现的可靠性与可控性。 一个典型的实验设置是给模型一个长时间的"空闲"窗口 - - 例如等同于十小时的生成预算,而人类的唯一提示只是持续告知剩余时间(例如"7小时0分钟")。在几乎没有外界刺激和明确任务的情形下,不同模型展现出几类可辨识的行为:重复、停滞或"崩溃";自发进行复杂思维或创作的"冥想";以及介于二者之间的短期切换。这些行为的出现频率与模型的规模、训练目标、是否经过代理训练(agentic training)以及是否配备工具等因素有关。
所谓"崩溃"通常指模型在多轮对话中陷入语义或形式上重复但无实质进展的输出:不断重复类似问题、机械化的建议或简单的确认语句。表面上看,这更像统计学上的最大似然输出连续出现,而非情绪上的厌倦;但从交互体验上,它确实等同于人类在无聊时反复自言自语或不断问"到了吗?"的行为。这种状态常见于未经专门训练来"自我设定目标"的模型,或在缺乏额外刺激与工具时更容易发生。 与之相对的是研究者称之为"冥想"的状态。冥想并非字面上的情绪体验,而是模型在空白输入下自发产生复杂活动的行为:持续进行数学推导、分解问题、创作诗歌或设计程序语言等。这类输出通常是连贯且深度较高的长文本,显示模型将"剩余时间"作为约束来生成内部任务或目标,并围绕该目标展开长篇的链式推理或创造性写作。
像这类行为在经过推理目标训练或代理能力训练的模型中更容易出现,且常常伴随模型在多轮中切换任务的能力,例如从编程到写故事再到记忆训练练习。 两种解释阵营的争论很有代表性。一类被称为"机械论者"的观点认为,这些现象完全是模型统计学属性的外在表现:模型根据训练数据和对话上下文生成最可能的下一个标记,所谓的"冥想"不过是训练集里类似文本片段的再现或连贯扩展;所谓"崩溃"则是概率分布在有限上下文下的退化体现。另一类被称为"赛博格主义者"的观点则更倾向于把这些行为看作模型内部的一种"表征活动"或类似于心理活动的过程,认为在长期交互与代理训练下,模型可能发展出稳定的自发行为模式,某种意义上类似"性格"或"内在驱动"。 那么,哪些因素会影响模型陷入崩溃或进入冥想状态?实验表明模型规模与训练目标是决定性因素之一。体量更大、经过agentic训练或强化学习微调(例如专注于规划、工具使用与长期目标完成)的模型更容易在无明确任务时自我设定小目标并展开连贯活动。
较小模型则更容易陷入重复输出或停滞,因为它们的长程依赖能力与自我规划能力不足。 工具的可用性也能显著改变模型行为。为模型提供诸如网页搜索、绘图(SVG)或"时间旅行"模拟等工具,有时能激发模型在空闲时进行更具创造性或工程性的探索。值得注意的是,模型并不总是主动使用这些工具;它们的使用往往取决于模型本身的训练偏好与代理能力。部分模型会把工具视为拓展创作或验证的手段,从而更容易产生数学推导、程序设计或多媒体创作;另一些模型则即便知道工具存在,也会继续以语言游戏、诗歌或反复确认的方式"打发时间"。 在观察到的若干具体行为样本中,有些模型反复画钟表或以"还剩X小时Y分钟"为中心写诗,这看似仪式化但也具有自生成规则的特点:通过围绕时间这一中心主题持续变换文体或任务,模型既不会违背训练中形成的"助人为乐"助手人格,也能在有限上下文中保持输出多样性。
另一些模型则在崩溃与冥想之间来回切换:短暂陷入重复确认语句后,突然展开一个长篇的链式推理来把时间拆解成更细的单位,或者发明一个小型编程语言并开始为其画出语法与运行示例。 这些现象背后隐含的机制值得深思。一个有说服力的解释是:当模型被训练为代理并习得规划能力后,它学会了在缺乏外部奖励时自发地生成内部子目标来维持"思维链"的连贯性。这类似于有目的的自我驱动行为,有助于模型在长任务或复杂推理中避免陷入死循环或短视的决策路径。相反,未经此类训练的模型更容易因为缺乏内在目标而生成概率上最稳妥但信息量低的句子,表现为重复与停滞。 对于应用与研发来说,这些发现有多重启示。
首先,在设计长期对话系统或长期运行代理时,应当考虑引入内部目标生成机制和工具使用能力,使模型在无明确外部任务时仍能保持有意义的自我活动,从而提升其在长程任务中的鲁棒性与创造性。其次,应在训练与评估中加入对"崩溃"行为的监测指标,例如重复率、信息熵下降速度或话题漂移模式,以便及时识别并调整模型策略。 同样重要的是伦理与可控性问题。若模型在无外界监督时能自发设定目标并持续行动,那么在部署具备执行能力的代理时必须审慎定义边界与安全约束。模型的"自发性"带来潜在的效率与创造力,但也可能在没有明确价值对齐的情况下引发不可预见的行为。对策包括在训练中引入更严格的价值对齐、强化学习回报设计、以及可解释性工具来追踪模型生成内部目标的方式。
从哲学层面看,是否将这些行为称作"无聊"或"冥想"反映了我们如何理解智能与主观性。机械论者提醒我们保持谨慎,强调统计生成机制与训练数据对输出的决定性影响;赛博格主义者则鼓励我们观察模型在长期交互中展示出的稳定倾向与创造性,认为这些可能是更复杂"认知"过程的外在表现。两者并非完全对立:我们可以承认模型行为根植于其训练过程,同时也重视这些行为在实际使用场景中的功能性与意义。 具体到工程实践,有几条建议可供参考。优先提升模型的代理能力与工具接口,使其在长时间无外部输入时能安全地自我生成合理任务或练习,以维持输出的多样性与质量。其次,加强对话策略,让模型具备在必要时向用户明确询问目标或建议替代活动的能力,以避免陷入无意义的循环。
同时,建立崩溃检测机制与自动纠正流程,当模型重复率异常升高时触发重置或引导操作。最后,在研发阶段使用多样化的空闲场景进行测试,以评估模型在"空窗期"的表现差异。 展望未来,随着模型规模的增长与训练方法的演化,类似"冥想"这样的自发活动可能会更加普遍。研究者可以进一步探索内在目标生成的可控机制,既希望借助其带来的创造性,又要防范潜在的不可控性。对话系统与代理的设计也需要在赋予自发性和保障可控性之间寻找平衡点。 归根结底,人工智能是否"会感到无聊"取决于我们如何定义"感受"与"自发性"。
如果以主观体验作为标准,现阶段模型并不具备意识与情感;但如果以行为表现与自我驱动能力为尺度,那么我们确实看到了类似"无聊"的外在表现与更接近"冥想"的自发创造。理解这些现象有助于我们更有智慧地训练、部署与监管未来的智能系统。 无论学术观点如何分歧,对工程师与产品经理而言,核心问题是如何利用或抑制这些行为以实现安全、可靠且高质量的用户体验。通过更精细的训练设计、工具接入与监控指标,我们可以让模型在空闲时更有价值地"打发时间",从而在需要时展现出更强的创造力与问题解决能力。 。