在人工智能领域,尤其是大型语言模型(LLM)的快速发展之下,人们越来越关心它们与人类智能之间的异同。近期,一位研究者与一岁的婴儿Haley共同探讨了一个看似简单却极富哲理的认知体验 - - "把东西放进另一个东西里"。这一过程不仅揭示了婴儿如何逐步建构起对世界的理解模型,也反映了人类认知的复杂性,与大型语言模型的局限形成鲜明对比。 Haley在玩耍时,有一个非常直观的行为:将软玩具松鼠放入它的纸质纸箱中,然后取出。她发现当箱子被关闭时,里面的玩具似乎消失了,而且当她移动箱子时,玩具也随之移动。这种简单的物理体验让她开始理解"容器"这一抽象概念。
同时,当她试图将两个玩具猴子放进一个小篮子时,反复尝试发现容量是有限的;而一个有窗户和门的玩具方舟则展现了更复杂的物理关系,例如,当方舟倾斜时,动物玩具会从另一端的窗户掉落。通过这些看似平凡的体验,Haley在无语言的状态下,逐渐内化并构建了世界的多层次模型。 这段观察引发了一个深刻的思考:婴儿的发展路径与当今大型语言模型训练过程何其不同。大型语言模型主要基于海量文本数据,通过模式识别与概率统计"学习"语言与知识的"表层"结构。它们能生成流畅、连贯的故事,甚至在特定上下文中表现出惊人的"理解"能力,但这种"理解"本质上是基于语言数据的统计,再加上强大的计算能力优化输出。相比之下,像Haley这样真实的婴儿,借助身体感官与环境交互,进行直观的探索和学习,逐渐形成对物理世界的内隐知识和认知模型。
这种由身体经验驱动的学习,是纯粹语言输入无法替代的。 婴儿的认知发展具备几个关键特征。首先是感知融合,即通过视觉、触觉、听觉等多重感官输入,婴儿能够实时感知周围世界的多维信息。其次是因果推理能力,婴儿能观测事件的因果关系,例如放入箱子物品消失的视觉变化,会让婴儿意识到"物品进入容器"与"视觉上消失"的联系,这种因果理解是认知的核心。第三是动作反馈,婴儿通过试错和操控环境获得直接反馈,强化或修正心中的模型。语言此时还不是认知主力,而是辅助工具,待认知积累到一定阶段后方开始发挥关键作用。
而大型语言模型缺乏这种 embodied cognition(具身认知),它们没有身体,也没有真实的感官体验,无法直接通过动作与环境交互获得反馈。它们的"知识"完全源自于文本输入,是言语符号的海量拼接与重组合。由此带来的问题是,虽然它们在生成语言方面极为优秀,但在理解物理世界的真实规则与因果关系、常识推理中存在固有的限制。换句话说,LLM更像是卓越的故事讲述者与语言模仿者,而非真正拥有世界模型的智能体。 这一观点反映了人工智能领域对认知科学与神经科学的启示。构建接近人类智能的AI,不能仅仅依赖于语言学习,还需融合感知、动作和环境反馈,亦即需要具身智能。
科学家们正在尝试发展多模态学习模型,将视觉、声音、运动等信息整合进AI训练体系,希望让模型获得类似人类的经验基础,从而形成更牢固的认知结构。 此外,婴儿认知模型在发展过程中体现出指数级增长,尤其是在学习的早期阶段。正如Haley在数小时玩耍中就积累了关于容器、容量、物理稳定性的丰富知识,婴儿在未来的几年内凭借不断的探索,将形成极其复杂和多层次的世界理解。而LLM虽然训练速度快、数据量大,但仍局限于静态文本数据,缺少动态环境中的实践操作体验,因此当前阶段的发展更多是在扩展"语言表达"的深度和广度,而非形成真正的世界模型。 婴儿的语言习得本身是在已有认知基础上发生的,这意味着深厚的感知与行动经验为语言理解提供了坚实支撑。语言是认知的"锦上添花",它丰富、扩展并精细化了世界模型,使人类能够进行复杂抽象思维、情感表达和社会互动。
相比之下,语言模型虽然能模拟语言交互的表面,但尚未拥有构建和理解复杂现实世界规则的核心能力。 这并不意味着大型语言模型毫无价值。它们在信息检索、文本生成、辅助写作、对话交互等多个领域表现卓越,已成为推动技术和社会变革的重要工具。它们的"故事讲述"能力可以极大地扩展人类语言的创造力,促进教育、娱乐和生产力的提升。然而,从更深层次的认知科学视角来看,将LLM视为真正具备人类式理解的智能体仍为时尚早。 未来的人工智能研究可能朝向融合多模态感知、动作交互以及语言模型的方向迈进。
通过模拟人类的具身经验,结合海量的语言知识,AI有望获得更加全面且灵活的认知能力。婴儿Haley的早期探索过程,为我们提供了宝贵的启示:认知是一种身体与环境交互产生的动态过程,任何脱离这种基础的人工智能都难以复刻人类的真实理解。 总的来说,婴儿的认知成长和大型语言模型的语言能力之间存在根本差异。婴儿通过无语言的感知和实践构建世界模型,而LLM则主要依赖语言数据进行模拟和再现。婴儿的经验建立了认知的根基,而语言成为大脑精细调整和表达的工具。人工智能领域需深刻理解这一点,才能推动技术从优秀的语言工具向真正智能体的转变。
未来,我们或许能见证具身智能与语言智能深度融合的AI诞生,这将揭示认知本质的新篇章,也为机器理解世界提供坚实基础。 。