近年来,大型语言模型(Large Language Models,简称LLM)在自然语言处理领域展现出卓越的能力,其在文本生成、信息抽取、问答系统等多个任务中取得了令人瞩目的成绩。这使得人们对人工智能是否能够像人类一样思考充满了期待。然而,尽管LLM在广泛的任务中表现优异,其背后的逻辑推理能力仍然存在明显局限,成为实现通用人工智能的重要瓶颈之一。逻辑推理作为思考的核心,涉及从已知知识出发,通过规则演绎出新结论。传统观点认为,知识和推理是构建智能机器的基石。知识指的是关于世界的事实集合,例如天体物理学的质量与引力关系,推理则是将多个知识点按照一定规则组合和加工以得出新的知识或结论。
多项研究表明,当前LLM在面对复杂的逻辑推理任务时,更多依赖于类比和已有知识的记忆,而非真正的演绎推理。比如,某些模型能熟练完成过去的编程题,但对新题目或简单数字更改后的算术题表现不佳,这暗示它们主要通过训练时遇到的相似范例进行回答,其推理能力难以脱离已有经验。即使是如GPT-4这类先进模型,也难以完全摆脱这种“知识偏倚”,在纯粹逻辑任务中仍然只能正确解决约一半的问题。这使得LLM难以处理真正意义上的全新问题,限制了其向真正智能机器的转变。为突破这一瓶颈,业界学者提出了通过设计合成逻辑推理训练语料来强化模型推理能力的思路。其中,日立研发集团的相关团队通过ICML 2023大会展示了一种名为FLD(Formal Logic Deduction,形式逻辑演绎)的创新框架。
该框架基于形式逻辑理论,系统生成多样化的演绎推理训练示例,使语言模型必须根据给定事实和假设,逐步生成证明步骤,以证明或反驳假设,最终得出结论。这些训练示例中使用的事实和假设均为随机构造,且不含实际语义,仅保留逻辑结构,目的在于杜绝模型依赖既有知识库的捷径,逼迫其真正理解和运用逻辑推理规则。在形式逻辑层面,推理遵循一定公理和规则,如最基本且广为熟知的“假言推理”(modus ponens),即从“若F则G”与“F成立”推出“G成立”。不仅如此,逻辑中还存在多种推理法则和复合推理形式,通过多步推理可从几条原始事实演绎出复杂结论。日立团队提到,基于完整性定理,所有有效的规则都可以通过有限步骤由公理演绎而来,意味着只要训练语料涵盖一定公理及其演绎组合,模型便能学习到广泛且通用的推理能力。实验结果显示,目前未经专门训练的LLM,在面对该合成逻辑推理语料时表现平平,即使是GPT-4的正确率也仅约50%。
而较小规模的语言模型如T5,在经过约三万条FLD语料的专门微调后,尽管仍未完美,却在推理任务上明显优于GPT-4,展现了合成逻辑训练语料对模型推理能力提升的有效性。此外,在不同推理规则构成的多种数据集间进行的迁移测试表明,基于FLD训练的模型在适应其它推理任务时表现出了较强的泛化能力,这也侧面印证了形式逻辑公理体系在归纳各种推理模式中的普适性和优势。这些研究进展为未来构建具备更强逻辑推理能力的人工智能系统指明了方向。基于合成语料强化推理训练,有助于模型脱离对经验知识的依赖,逐渐实现从“记忆复述”向“严谨演绎”的转变。未来,如何将训练得来的逻辑推理能力迁移到更加复杂实际的语言理解与推理任务上,仍是学术界和工业界关注的热点问题之一。除了形式逻辑框架外,结合神经符号方法、多模态信息融合及持续学习等技术,也有望进一步促进模型逻辑思维的提升。
总之,尽管当前LLM在逻辑推理上仍存在不足,但通过设计科学合理的合成训练语料及训练策略,有望显著提高其推理能力,推动人工智能向具备真正思考能力的方向迈进。随着研究的深入及技术的不断突破,未来的智能模型不仅能“说”得更流畅,“想”得也会更加深刻和严谨,对各领域的创新应用将产生积极而深远的影响。