近期,人工智能领域出现了一则重磅消息——深度思维(DeepMind)和OpenAI两大人工智能实验室分别推出的系统在2025年国际数学奥林匹克(IMO)中获得了金牌级别的成绩,两个系统均拿到了满分42分中35分的高分,这在整个竞赛中位居前8%,相当于获得京金牌的水平。这一成果不仅令人工智能研究界震惊,也引发了全球数学和科技圈的广泛关注和热议。国际数学奥林匹克作为全球最具声望的中学生数学竞赛之一,每年吸引来自110个国家的630名顶尖数学学生参赛。高中生面对的难题难度极高,要求参赛者在有限时间内准确解答多个复杂问题。人工智能系统能达到如此水准,无疑展现了其在数学推理领域的显著突破。首先,深度思维的系统名为Gemini Deep Think(简称“Deep Think”),而OpenAI的系统尚未正式命名,暂以“OpenAI-IMO”称之。
两者均完成了严格的考试流程,遵守了与人类参赛者相同的考试规则,没有外部帮助,只凭本身内置的数学推理能力作答。值得一提的是,两者均在六道题中拿下除最后一题外的满分,最后一题题目难度极高,仅有极少数参赛者获得高分。此成绩与人类选手相比,排在前27名左右,但仍有二十多名选手得分超过这些AI系统。通过该成绩,可以看出当前人工智能已具备一定的复杂推理和数学问题解决能力,能够处理部分多步骤推理和抽象逻辑,超越了以往的模型,如早期的Gemini-2.5-pro和其他测试模型都未能达到奖牌级别分数。AI在数学领域的潜力尽管令人兴奋,但对其意义的过度解读则显得不够理性。部分观点将此次突破比作“登月时刻”,明显夸大了AI的现实实力。
事实上,IMO金牌虽代表数学实力,却只是高中阶段的竞赛,未必全面反映原创数学研究的能力。数学研究需要更多的创造力、深度理解、长远规划及跨领域思考能力,这些都是现阶段AI尚不能完全复制的。许多IMO高分选手最终未必成为顶尖数学家,而真正的数学天才也可能在中学时并不擅长标准测试。此前,人工智能在数学证明领域的成就极为有限。唯一被公认的重大突破是1996年某AI系统自主证明了一个中等重要性的定理——Robbins猜想。相比于那次历史性进展,如今AI在数学竞赛上的表现虽突显其计算和推理能力提升,却尚未进入“原创数学研究”的范畴。
技术层面上,深度思维与OpenAI均未公开详尽的系统设计和训练细节。深度思维透露,他们采用了涵盖多步骤推理、证明和问题解决数据的强化学习新技术,结合了大量高质量的数学问题解决方案,并对系统进行了专门针对IMO题目的指令优化。OpenAI则透露其系统基于大型语言模型(LLM),通过下一词预测技术,并辅以实验性通用方法训练,但并未强调专门面向数学推理设计。两者的内部工作细节、训练数据范围以及超越现有模型的关键技术和创新尚未公开,外界对于系统能否推广到其他复杂领域仍存疑问。除得分数字外,回答质量和表达风格也体现出不同。深度思维的答案展现出清晰、简洁且符合传统数学表达的逻辑,极具可读性和优雅性。
相较之下,OpenAI-IMO的解答虽答案正确,却结构冗长且表达较为口语化,部分几何问题甚至转换为复杂的代数运算,缺少直观的几何推理方法。此风格反馈出OpenAI-IMO可能并非单纯传统LLM,而是融合了某些特殊机制,或许在数学表达能力上存在局限。在考试流程和合作文化上,两者存在显著差异。深度思维与IMO主办方保持良好沟通,考试全程在官方监督下进行并由官方专家评分,尊重竞赛精神,成绩公布遵循时间安排,推动学术合作。OpenAI则较为独立,未提前与IMO官方密切协调,自行组织考试和评分,赛后早于大会结束宣布成果,引发数学界对其透明度和标准的质疑。著名数学家陶哲轩对此公开表达不满,拒绝承认未经公开审核的AI成绩,强调公平公正的评测机制对科学发展至关重要。
综上所述,深度思维与OpenAI的最新成就代表了人工智能在数学问题求解领域的重大进展,凸显了AI在推理、逻辑演绎等方面能力的快速提升。然而,将此等成果等同于AI数学研究的终极突破,或是宣称AI将取代人类数学家的观点尚为时过早。未来探索仍需关注系统内部机制、可推广性、经济成本及与其他工具的协同能力。此外,对AI能否在原创数学研究、科学发现、跨领域应用中承担更重要角色,将是今后数年科研界和技术界重点关注的议题。通过更开放的学术交流和多方验证,才能理性认识人工智能的实力和局限,为其在数学及科学发展中发挥建设性作用奠定坚实基础。
 
     
    