近年来,人工智能尤其是大型语言模型(LLM)的兴起引发了业界和学术界的广泛关注。苹果公司近日发布的一篇关于“推理崩溃”的论文再次成为话题焦点,但这篇论文所呈现的观点却遭到了诸多批评。本文将全面剖析苹果论文中的核心误区,结合认知科学理论和人工智能发展现状,厘清人类推理与机器模拟推理之间的根本区别,揭示大型语言模型在面对复杂模糊问题时的实际能力与挑战。人类认知的复杂性远非传统逻辑或纯粹的数学计算所能涵盖。对话和论证不仅仅是冷冰冰的逻辑演绎,而是一种包含感知、情境和价值权衡的动态过程。正如哲学家斯蒂芬·图尔敏(Stephen Toulmin)所指出,真实的推理涉及面对不确定性和模糊性的“合理性”,这样的推理往往无法用严格的演绎逻辑来完整表达。
图尔敏反对简单将对话视为“降级”的形式逻辑,强调了对话作为人类认知和共享意义构建的核心工具的重要性。苹果论文选择用诸如跳棋、河内塔等纯逻辑任务来测试大型语言模型的推理能力,却忽视了这些机械逻辑游戏并非语言模型设计的核心用途。这些游戏代表了传统计算机善于处理的严谨、确定性问题,而大型语言模型更擅长解决生活中大量模糊、开放的问题,这类问题往往牵涉社会规范、价值判断、信息不完全和多重可能结果。人类认知中,有一个关键特点是“为了被认为理性而提供理由”的社交驱动力。人们在做决策时并不是仅仅依赖内在推算,而是在想象潜在质疑者后,提前构建回应的理由。通过这种互动式思维机制,认知不仅仅是个人的内部活动,更是协作共识的产物。
大型语言模型在某种程度上模拟了这一进程,即围绕给定论断提出潜在反对意见,再根据这些反对意见进行自我修正和完善。虽然这是模拟而非真实“思考”,但这种机制使得模型能够在处理模糊和非结构化问题时表现出令人惊讶的“推理能力”。苹果论文未能认清这一点,反而以传统的数学逻辑标准来衡量模型的推理表现,导致得出“模型推理能力有限”的结论,这种评价实际上忽视了推理的多样化和宽泛的定义。数学和形状旋转任务更多考察认知中的“空间推理”能力,而这并非人类认知的唯一或核心形态。人类的大脑更偏重于语言、社交互动与信息整合,这种推理方式即使效果不总是完美,却能够处理极其复杂和不确定的现实问题。苹果一味追求让模型在纯逻辑游戏中取胜,忽视模型在真实世界决策中展现的价值,这不仅限制了对模型潜力的认识,也误导了业界对未来人工智能发展的期待。
事实上,大型语言模型在医疗诊断、法律咨询、危机应对等领域的应用,正是依赖于它们对模糊信息的整合能力而非严格的演绎逻辑。由此来看,苹果论文体现出的是一种认知视角的落后,忽略了图尔敏所强调的“合理性”领域,错误地将推理等同于严格的数学逻辑演算。这样的视角不但低估了语言模型作为“模糊问题解决者”的潜力,也未能推动人工智能向更加接近人类思维方式的方向发展。展望未来,评价大型语言模型和智能系统的能力应当跳出“对错二元”的框架,更多关注其在复杂、模糊、跨学科问题中的适应性和灵活性。同时,也需要建立新的测试体系,更贴近人类现实认知和社会互动的多样性。只有如此,人工智能才能真正成为推动人类认知边界扩展的工具。
总之,苹果的“推理崩溃”论文所曝露的,更多是人工智能认知理解上的偏差与局限。真正理解人类推理的丰富内涵,吸收图尔敏和认知科学的深刻洞见,才能更合理地设计和评价未来人工智能系统。大型语言模型虽不完美,却为我们处理纷繁复杂的现实问题提供了新的可能性,值得期待和深入探索。