随着人工智能技术的迅猛发展,推理模型(reasoning models)作为AI的重要分支之一,备受关注。2025年6月,Apple发布了一篇题为《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》的论文,立刻引发了AI社区的热议。论文主张许多推理模型并未真正实现“思考”,尤其是在面对复杂问题时表现出明显的局限性。然而,深入分析这篇论文及其论点,能够发现其中存在的争议及被忽视的细节,对我们全面理解现代语言模型的真正能力至关重要。Apple论文的核心实验基于四种人工拼图环境,主要使用了经典的汉诺塔问题(Tower of Hanoi)作为测试案例,并逐步增加拼图的难度,从一块到最多二十块磁盘不等。研究团队比较了“非推理”的DeepSeek-V3与“推理”的DeepSeek-R1模型的表现,得出了对于不同难度级别下推理模型表现的分阶段结论。
然而,这些结论是否能够全面反映语言模型的推理能力,值得我们从多个角度深挖。首先,汉诺塔类拼图是否是衡量AI推理能力的最佳范例值得怀疑。虽然数学和编程任务面临“数据污染”和复杂性难以精准衡量的挑战,Apple选择汉诺塔一类相对简单且完美可解的拼图,意图借助其可控复杂度来规避这一困境。然而,汉诺塔算法的解法和步骤早已广泛存在于模型的训练数据集中,因而向模型直接输入正确的算法,却未能显著提升表现,不足为奇。模型早已获取这些知识,其创新能力被算法本身的性质所限制。此外,当前主流推理模型绝大多数在训练时注重数学问题和编码解题,而非拼图类问题。
因此,基于拼图得出的结论在应用到推理模型整体能力时显得牵强。拼图问题更侧重于算法的机械执行,少了数学中常见的多层推理和抽象思考,而语言模型其实更擅长处理后者。其次,论文提出的复杂度阈值与模型表现下降的“放弃”行为其实也反映了模型对任务规模的感知,而不一定是推理能力自身的缺陷。从用户测试和推理轨迹来看,当面临需要生成超过千步的解题过程时,模型不会一味盲目尝试,而是主动寻找捷径或者干脆放弃,表面上表现出“不给力”的推理,却有其自身的风险规避和效率权衡考量。从这个视角解读,不能简单地将复杂度带来的表现滑坡归结为模型“不懂推理”或“不具备推理能力”。换句话说,模型并非不具备思考,而是清楚任务庞大到超出其合理计算资源,试图采取其他策略。
再者,哪怕是人类在面临类似庞大步骤和复杂策略的问题时,也很难保持持久的耐心和准确度。将模型对复杂任务的“放弃”与人类因现实因素中断思考类比,可以更好地理解当前AI推理模型的行为特性。换言之,推理能力不仅仅是“能不能算出准确答案”,还包含“能不能持续投入资源并合理权衡”。论文虽然强调了模型的“失败”,但未充分区分推理能力和现实计算限制的差异。与此同时,模型在相对“中等难度”的汉诺塔拼图表现优异,说明它们确实具备一定的推理储备。Apple论文的发现中的“三个阶段”理论——简单问题非推理模型与推理模型表现相当或前者更好,适度复杂问题推理模型占优,极其复杂问题推理模型放弃——为AI推理能力的分层理解提供了有趣的框架。
未来研究可以探索如何提升模型在“放弃边界”上的表现,让其更有耐心与坚持,这或许是升级推理能力的关键一环。除此之外,论文引出的一个现象尤为引人注目,即推理模型可能存在“过度思考”导致性能下降的情况。在解决简单问题时,推理模型反而不如非推理模型表现稳定,这表明这些模型在某些场景可能陷入过度复杂化的问题求解过程,反倒失去了简单直接的优势。面对这种问题,优化模型的思考策略,使其在适当时刻快速收敛答案,也是未来研究不可忽略的方向。更广泛来看,评估AI推理能力始终存在一个困境:我们如何定义“推理”本身?传统科学试图用数学和算法证明来衡量推理能力,而现实人类推理是情境感知、经验积累和直觉三者综合体。AI模型同样是基于大规模数据和训练优化的产物,它们的“推理”不同于人类理性思维的全貌。
把AI推理模型过度简化为算法执行器,忽略其背后复杂的语言理解与知识迁移能力,可能会导致对模型能力的误判。事实上,语言模型在数学、编程、文本理解等领域不断展现出惊人的综合推理能力,只是它们表现形式和过程与传统编程算法不同。结合Sean Goedecke对Apple论文的批判观点,我们也应警惕街灯效应(streetlight effect),即只选择易于测量的测试案例作为模型推理能力判断的依据。单纯使用容易量化的拼图或算法题目,未必能全面反映语言模型的推理潜力,甚至可能误导外界对AI未来可能性的认知。从长远趋势看,推理模型能力的提升不仅靠算力和数据量,更重要的是模型架构的创新、训练细节的优化与使用场景的精准匹配。我们看到即使是最先进的GPT-4系列,也在复杂推理和长步骤多轮计算时存在挑战,但这并不意味着推理技术停滞不前,而是准确反映了AI当前发展的阶段和限制。
未来,让推理模型拥有更长的注意力跨度、更精细的步骤跟踪以及更强的自我纠错机制,才是提升AI推理水平的关键。此外,对不同应用场景中推理任务特点的深入理解,也有助于设计更适合特定问题域的模型。总结来看,Apple论文《The Illusion of Thinking》为AI推理模型的表现提供了一种有益的视角,提出了推理模型在复杂任务中可能遇到的瓶颈及“放弃”现象。与此同时,对其方法和结论的批判性思考提醒我们,单靠拼图测试难以全面评判推理能力,复杂度限制也不等同于推理能力丧失。合理看待语言模型的推理能力,既需要关注其在实际问题中的表现,也需意识到模型“思考”本身是资源受限与策略选择的过程。只有摒弃表面的“失败”标签,深入研究模型行为与机制,才能为人工智能推理的未来发展奠定坚实基础。
。