近年人工智能尤其是大型语言模型(LLM)的发展速度惊人,Google 旗下的多款模型在自然语言理解、创作与对话交互方面展示了强大的能力。然而,尽管这些模型能够生成流畅且连贯的文字,它们在简单的算术与计数任务上却时常犯错。这种"不好数数"的现象并不是小问题,它暴露了当前生成式 AI 的根本限制,也提示我们在实际应用中必须保持谨慎。 首先要明确什么是"AI 不能计数"。这里并非指模型完全不能处理数字或算术,而是指在一些常见场景下,模型给出的数值答案不稳定、错漏或者逻辑不一致。例如在对表格数据进行归纳求和时,或者在多步推理要求对数量进行累加、比较时,模型可能会生成错误的数字、忽略某些项目或者在反复提问时给出不一致的结果。
这类错误在面对财务报表、医疗剂量计算、库存管理等对数值高度敏感的领域时后果严重。 为何大型语言模型在计数和算术上会表现不佳?根本原因在于模型的训练目标与内部机制。当前主流语言模型是基于概率预测下一个词的架构训练的,目标是最大化文本的流畅性和语义连贯性,而不是执行精确的数学运算。模型通过海量文本学习语言模式,但并没有内建符号化的数学推理模块。语言模型擅长模式匹配与统计关联,但精确的数值操作通常需要符号推理或确定性计算,这与基于参数化神经网络的模糊表示天然不匹配。 另一个关键因素是训练数据的稀缺与噪声。
真实文本中包含大量关于数字的表述,但这些表述经常是上下文相关、近似值或口语化表达。模型在学习过程中可能无法建立稳定的、可重复的计数规则。加之训练数据中的错误或不一致会被模型继承,导致模型在面对未曾见过的计数任务时容易出错。 模型的采样与解码策略也会影响数值稳定性。生成阶段常使用温度采样、束搜索等技术以提高文本多样性与自然度,但这些技术并非为保证数值准确性而设计。较高的采样温度可能导致输出的随机性增加,从而使得算术答案更容易偏离正确值。
即便是同一个模型,在不同提示或不同随机种子下也可能给出不同的数值答案。 针对上述问题,研究者和工程师探索了多种改进方法。链式思维(chain-of-thought)提示技术就是一例,通过引导模型逐步展开中间推理步骤,提升了在复杂推理和算术任务上的表现。对于某些模型,使用链式思维可以显著减少错误,因为它迫使模型显式地陈述推理过程而不是直接给出结论。然而链式思维也有局限,模型陈述的中间步骤本身可能包含错误,且在长且繁复的计算中仍难以保证最终结果的准确性。 另一个有效方向是将语言模型与外部工具结合,例如调用精确的计算器、数据库或专门的数学引擎。
通过工具调用,模型负责理解问题并构造调用指令,而具体的数值计算由确定性工具完成,从而弥补了神经网络在精确运算上的不足。Google 和其他公司都在推动这类混合架构,使得模型既能保持语言交互的优势,也能依赖外部服务获得精确答案。 在工程实践中,提示工程(prompt engineering)也能在一定程度上缓解计数问题。通过设计更明确的任务描述、提供示例、指定输出格式以及要求模型列出计算步骤,可以提高数值任务的正确率。此外,分解任务为更简单的子任务并逐步确认中间结果,也是一种实用的应对策略。但这些方法往往需要人工设计与反复调试,对普通用户而言并不总是方便可行。
模型规模与训练策略也影响算术能力。一般来说,模型规模越大、训练数据越丰富,语言模式的捕捉能力越强,某些类型的推理能力也可能得到提升。但规模并非万能,单纯扩大模型参数并不能完全解决算术不稳定的问题。研究显示,结合针对性训练、强化学习与符号化模块的混合方法,往往更具实际效果。 从应用与伦理角度看,AI 在计数与算术上的不可靠性意味着在关键场景下不能盲目信任其输出。把模型的数值建议直接用于财务决策、临床计算或法律文件可能导致严重后果。
企业在将生成式 AI 集成到业务流程时,应当设计多层次的校验机制,例如结果复核、人工审批、使用独立的算法验证数值结果,或者在高风险情境下完全禁用自动数值生成。同时明确向用户提示模型可能的错误率和不确定性,也是负责任部署的一部分。 对于普通用户,有几条简单的使用建议可以降低风险。遇到涉及具体数值的答案时,最好用独立工具验证;在重要用途前多次询问模型,并要求模型展示计算过程;避免把模型作为唯一信息来源,在专业场景中优先咨询有资质的专家或使用专门软件。此外,合理设计提问方式,例如限制答案格式、要求四舍五入规则或提供数值范围,也能提高结果的实用性。 从长远研究方向看,解决 AI "不会数"问题需多管齐下。
研究者正探索把神经网络与符号推理系统结合,开发可解释且可验证的混合模型。同时,改进训练目标,使模型不仅学习语言模式也能强化精确计算能力,可能通过多任务学习或专门的数学训练集来实现。可微分编程、神经模块化、基于约束的训练方法等也被视为潜在路径。更重要的是建立标准化的评测基准,涵盖从简单算术到复杂数理推理的多层次任务,以便准确衡量不同方案的改善程度。 Google 及其他大型 AI 公司亦在积极应对这些挑战。通过发布模型更新、增加工具集成能力、推出开发者接口支持外部计算插件,企业希望在保持生成式 AI 创造力的同时提升可靠性。
与此同时,透明性与可验证性也被提上日程,用户和监管机构对 AI 结果可追溯的需求促使行业增强对模型行为的监测与记录。 总的来说,尽管当下的语言模型在许多领域表现卓越,但在计数与算术任务上仍存在显著短板。认识到这些局限性并据此采取技术与管理措施,对于安全可靠地部署 AI 至关重要。对开发者而言,设计混合系统、引入工具调用和严谨的测试流程是可行之道。对用户而言,培养对 AI 输出的怀疑精神、学会交叉验证关键信息和在关键决策中保留人工复核是一种现实且必要的防护。 未来几年内,我们可以期待技术上的进一步改进,例如更好的链式思维推理、更强的工具融合能力以及神经-符号混合模型的成熟。
在此过程中,平衡创新速度与安全性、提高模型可解释性和可验证性,将是行业能否赢得广泛信任的关键。对于任何依赖数值精确性的应用场景,尽管 AI 已经是不可忽视的助力,但"机器会数数"的承诺仍需用事实和工程实现来验证,而不是仅靠流畅的语言与虚假的自信。 结语:理解 AI 的局限比盲目信任更重要。Google 及其他公司的模型在语言生成方面展示了惊人的能力,但在计数与算术任务上仍需谨慎使用。通过技术改进和流程设计,我们可以缩小差距,打造既聪明又可靠的智能系统。在此之前,用户与开发者都应保持警觉,积极采用验证与工具化的解决方案,以避免由"AI 不能数"引发的风险与误判。
。