随着人工智能技术的飞速发展,计算机不再只是被动的工具,它们开始能够“与人交流”,甚至在某种程度上“思考”。大型语言模型(Large Language Models,LLM)便是这股浪潮中的杰出代表。它们不仅能够生成连贯的文本,还在试图理解语言的深层结构,为人类的思维方式和创造力提供了新的镜像。本文旨在深入探讨所谓的“虚构机器”这一概念,揭示大型语言模型如何塑造我们对人工智能和认知的理解。大型语言模型的核心在于对语言统计特性的把握。早在1948年,信息论奠基人克劳德·香农就提出,信息是由特定概率分布决定的消息序列,而语言模型正是利用统计方法,估算某个词语在上下文中出现的概率。
基于大量训练数据,这些模型能够预测单词的出现,持续生成文本段落。有人认为,经过训练的语言模型只是在复制训练语料的整体分布,因而能够生成合理的文本续写。然而,这种观点忽视了语言的复杂多样性和创新性。正如香农所指出的,不同文学作品的语言统计特性千差万别。例如,简单英语的语言分布与詹姆斯·乔伊斯的《芬尼根守灵夜》截然不同。那语言的“通用”分布究竟是什么?特别是语言的一个核心功能,是表达前所未有的新思想和概念,譬如描述尚未被发现的物理定律的教科书内容,这种信息如何通过已有数据捕捉?这就引出了“虚构机器”这一更为抽象的模型视角。
文学大师博尔赫斯在《分岔花园》中形象地描绘了叙事结构的无限分叉:人物的每一个选择都会分化出无数可能的故事线。可以设想,一个理想的“虚构机器”在一条长纸带上写下开端的词语,然后不断扫描之前写下的文本,从一组所有合理文本中随机选取续写的词,生成一个既合理又内在连贯的故事。随着每一个词的添加,文本同时被约束,也被无数可能的后续分支无限扩展。大型语言模型如实地模拟了这样的过程。它们不必“知道”现实世界中的真理,重要的是语言本身的叙事需求。故事中的事实未必反映真实世界,但语义连贯是必不可少的。
这种对“虚构”的追求同样隐藏着挑战。现实中的信息传递和知识交流,需要不仅仅是有意义的文字,还要具备真实性和权威性。为了让模型不仅说得通,还能说对话,研发人员引入了对齐技术,让模型学习并严格遵守事实,保证输出符合人类期望的价值和伦理准则。然而,对齐则带来了“诅咒”。因为真实信息比虚构故事的多样性和结构约束更强,简单变换文本的操作往往无法保持真实性。例如,一个句子的细微改动会导致完全不同的事实含义,模型不得不记忆更多具体的知识点,训练成本和复杂度陡增。
此外,模型推理的真实性极易受未说明的条件限制,现实的事实之间常常有难以准确框定的相互依赖。无论是戏剧性丰富的小说,还是科学实验笔记,语言都承载着生成多样故事和传递有限事实的双重功能。我们自身其实也是“虚构机器”。人类通过构造各种故事来理解复杂的世界,比如通过想象不同历史进程中的“假设”情景,来反思事件因果。不同文化背景甚至可能通过神话体系、气象学模型或贸易网络来解释同一现象。通过错误的叙事,我们会面临实际行动的风险,也正是科学方法通过检验和修正叙述,淘汰错误理论,推动认知进步。
将虚构机器与实验验证分开看待或许是旧思维模式。事实上,可以构想一个更复杂的系统,其中内在的“叙事机器”不断提出理论,由外层的“事实机器”根据输入的特定“事实”来检验与调整。当前的技术已显示出大型语言模型初步的自我指涉能力,具备一定的元认知潜力,或许未来它们能像人类那样提出“我思故我在”的自觉意识。总结来看,虚构机器揭示了语言模型的本质和边界。它们既不是万能的“人工智能”,也无法完全胜任权威的百科全书角色,但在创意写作、代码生成及辅助思考等领域展现无限可能。随着研究的深化和对齐策略的完善,未来语言模型将更加贴近人类思维的多维面貌,既能制造引人入胜的故事,也能理性严谨地支持知识的探索与应用。
我们正处于理解智能本质和探索认知边界的关键阶段,虚构机器为我们提供了有效的视角,帮助认识机器如何像人类一样“讲故事”,以及讲故事对于思维和科学发展不可或缺的意义。