近年来,人工智能领域,尤其是大型语言模型(LLMs)的数学推理能力进步显著,掀起了人工智能与数学交叉领域的热潮。2025年国际数学奥林匹克(IMO)作为世界顶尖的中学生数学竞赛,其试题的难度和创新性向来被认为是全世界青少年数学才能的顶峰展示。因此,许多研究团队开始尝试利用LLMs挑战IMO题目,以检验其在高难度数学问题上的表现及潜力。近期,MathArena平台发布了对2025年IMO评测的详细分析报告,揭示出当前最先进的LLMs尚未达到获得奥林匹克奖牌级别的成绩,同时也展现出模型性能背后复杂的影响因素,以及未来可能实现突破的方向。此次评测涉及了多个主流模型,包括Gemini 2.5 Pro、Grok-4、DeepSeek-R1等,均基于严格的测试流程和高水平的人工评审。评测的宗旨不仅在于检测这些模型的最终得分,更重要的是理解模型在解题过程中展现的推理逻辑、证据构建能力以及对复杂数学语言的掌控。
Gemini 2.5 Pro在此次测评中以最高分31%(13分)的成绩领先,但距离获得铜牌所需的19分(满分42分)仍有明显差距。与此同时,其他模型表现则明显逊色,未能接近铜牌标准。这充分说明,尽管当前LLMs在数学领域表现出了极大的潜力,但挑战IMO这类高难度、需要严密逻辑推理和创新思考的数学竞赛仍然任重道远。值得关注的是,这些模型的训练和推理过程中采用了一种名为best-of-n的“多样本比较选择”策略,用以最大化推理过程中计算资源的利用。具体来说,每道题生成多达32个不同解答版本,并通过模型自我评判机制进行优胜解挑选,从而挑出最优解进行人工评分。这种方法显著提升了最终表现,但成本也相应增加,部分模型单次答案的生成费用高达20美元以上。
此举反映出尖端数学推理不仅依赖模型本身能力,还受限于计算资源和策略的辅助。在模型表现的定性分析中,Grok-4的表现尤为令人关注。Grok-4在未经优化的提示(prompt)下,经常给出非常简短且缺乏论证过程的答案,仅仅呈现最终结果而缺少推理依据。xAI团队介入后,提供了一种简单的优化提示,极大地改善了该模型生成证明的长度和逻辑连贯性,从而使其得分提升至21.43%,接近其它前沿模型表现。此事例突出显示了提示设计在提升LLMs数学推理质量方面的重要作用,也反映了模型对输入语言细微差别的敏感性。尽管推理质量有所进步,Gemini 2.5 Pro仍面临一个严重问题:模型偶尔会引用不存在的数学定理或证明,这种“虚假引用”行为可能误导用户并削弱对模型结果的信任。
幸运的是,针对2025年IMO问题的评测显示该问题有所缓解,表明在训练和算法优化中已有针对这一弱点的改进。人工评审还注意到模型在生成数学证明时,部分步骤虽展示出人类解题者常见的思维路径,但往往会因逻辑漏洞而导致推理中断,这种情况尤其在某些中间步骤和关键论证环节表现明显。模型对策略选择的认知尚不错,但在策略证明和严密推导方面的缺陷阻碍了其更高分数的获得。这与人类参赛者的表现形成鲜明对比——人类选手往往在策略选择上难点较少,但更注重严谨和完整性。值得一提的是,深度学习模型生成的答案多被赋予部分分,表现出与人类裁判评分习惯不同的微妙差异。即模型倾向于在不完整或有漏洞的证据基础上,仍然能获得一定的认可,反映出其在整体理解和局部细节之间存在平衡的尴尬局面。
2025年IMO的成绩公布并未止步于MathArena的评测。部分知名组织和公司相继宣称其模型取得了金牌级别的成绩,例如OpenAI由前IMO参与者验证的未公开模型,DeepMind的Deep Think新版本更获得了官方主办方的认可,而字节跳动则以结合Lean定理证明器的形式系统赢得银牌。这些成果表明更强大的算力、更先进的训练技术以及结合形式化证明系统的混合方法,极大推动了LLMs在极高难度数学推理上的突破。然而,这些顶尖成绩的模型目前尚未公开发布,普遍伴随巨大的资源消耗,限制了同行科研团队的复现与独立验证,因此MathArena的公开评测和数据仍具备极高的参考价值。此次评测不仅仅关注最终成绩数字的高低,更深入分析了模型在解决深度数学推理问题时的行文规范、格式处理和对题意准确把握的能力。对比之前对2025年美国数学奥林匹克(USAMO)的研究,发现此次IMO的模型在避免“奇怪格式”“机械答案包装”等问题上有所进步,解答呈现更加“稳健”和开放的思维风格。
这一点说明模型在理解开放性问题和自适应输出上逐渐成熟,为今后更普遍复杂任务铺就基础。同时评测团队指出,最佳答案的选取过程至关重要。相比随机单次生成的答案,经过best-of-n多轮筛选的答案有明显优势,提升近一倍的正确率。这说明模型在自我判断质量上的能力有惊人表现,能跳过表面语言流畅但逻辑错误的回答,优先选出准确合理的答复。总结来看,2025年IMO对LLMs的评测揭示了当前人工智能数学推理能力的现状和未来挑战。虽然部分模型已展示了与中高水平人类选手相当的解决方案雏形,但距离真正意义上的全面替代或超越人类水平尚有距离。
不断完善提示设计、结合形式化证明工具、扩大计算预算以及优化推理策略,或将在未来实现从“未达奖牌”状态到“金牌得主”的跨越。对学术界和工业界来说,公开且透明地共享评测数据和方法,以及促进合作,也是推动AI数学能力提升不可忽视的关键因素。2025年IMO的挑战为人工智能提供了宝贵锻炼机会,也为数学教育和科研注入了前所未有的活力。人机结合的科研新模式正在孕育,未来在推动数学发现、辅助复杂证明和提升人类数学认知方面,LLMs或将发挥不可替代的作用。