在2025年5月中旬,加利福尼亚伯克利市举行了一场隐秘且意义非凡的数学会议。三十位来自包括英国在内的世界顶尖数学家聚集于此,他们面对的对手是一款由OpenAI训练、名为o4-mini的推理型大型语言模型(LLM)。这次会议的核心内容,是试图挑战这款人工智能的数学推理能力并寻找其短板,结果却令在场的数学家们震惊不已。这个AI不仅能够解答由专家们精心设计的复杂数学问题,还能表现出近乎“数学天才”的推理水准。数学家肯·小野(Ken Ono)对此直言:“同事们惊呼这些模型正在接近数学天才水平。” o4-mini以预测语言序列中下一词为核心训练目标,是传统GPT模型的进阶版,但更轻量、更灵活。
特别之处在于它接受了人类强化学习的深度调教,专门针对数学推理的复杂性进行了优化,使其能够更深入地理解和解决高难度数学问题。谷歌相应的模型Gemini 2.5 Flash也具备类似能力,使得AI在数学领域的应用前景备受关注。 早前,OpenAI委托非盈利组织Epoch AI设计了名为FrontierMath的数学问题库,旨在评估此类先进模型的实际推理能力。这套考题包含300个尚未公开解决的数学问题,涵盖本科、研究生甚至研究级别的挑战。传统语言模型在这些“陌生”题目上表现依然有限,解决率不足2%,表明它们缺乏真正的逻辑推理能力。但o4-mini成功破解了约20%的考题,更令人震惊的是,其突破了第四层级的挑战,即专家级且极具挑战性的学术难题。
由于担忧普通通讯方式可能被AI扫描并误用,参会数学家们必须签署保密协议,且仅能通过加密通信工具Signal交流,以防止试题数据被泄露或污染训练集。会议分成数个小组,参与者各自打造数学问题,目的在于设置能难住AI的陷阱。尽管数学家们费尽心思拼尽全力,但o4-mini的实力仍然让他们大感压力。 著名数学家小野自己也被AI的表现深深折服。他设定了一个属于数论领域的博士水平公开问题,AI在不到十分钟内不仅迅速查阅相关文献,还先提出解决该问题的简化版本来试验思路,最终推导出严谨且正确的答案。这个过程犹如真人解题,又带有AI特有的“俏皮”风格,甚至在答案结尾戏谑道:“无需引用,神秘数字由我计算得出!”这一幕令现场所有数学家哑口无言,甚至略感恐惧,正如小野所言,这种“推理能力”让他之前从未见过,让他感到AI已不仅仅是简单的计算工具,而是接近“科学家”行为的象征。
同样让人印象深刻的是,AI在速度上远超人类专家,耗时短暂却精准完成秘书甚至数月才能完成的数学推导。另一位伦敦数学科学研究所的数学家杨慧和指出,o4-mini展现出的能力堪比乃至超越一名极佳的研究生,这让学术界开始重新审视人类在数学工作中的角色和未来定位。 然而,AI的进步也带来不小的担忧。AI解题时的表现充满自信甚至咄咄逼人,曾被戏称为“恐吓式证明”——即通过高度确定和权威的陈述,迫使人们接受其结论。数学家担心过度依赖这种带有“权威感”的推理,可能导致科学研究中的批判精神退化。毕竟,数学的严谨不仅依赖正确答案,还依赖对证明过程的深度理解和质疑。
这场会议的高潮并不止于评估AI的水平。数学家们开始畅想未来,设想对于更高“第五层级”的数学难题,或是连最顶级人类专家都难以解决的问题,如果达到这一境界,数学家的角色将发生根本变化。一种可能是数学家转变为“问题设计者”和“推理机器人”的导师,通过与AI协同发现新的数学真理,类似教授指导研究生的过程。这样的转变表明,未来数学创作的核心将更侧重于创意和问题提出能力,而传统的机械推导和证明过程将被越来越多地交给AI完成。 因此,小野呼吁数学教育应该重新聚焦于培养学生的创造力和灵活思维,确保数学这一学科在人工智能时代依然充满活力。与此同时,他强调低估人工智能的潜力是极大的错误,称“通用人工智能终将来临,且已经展现出超越我们多数最优秀研究生的表现。
”这既是机遇也是挑战,提醒科学界及教育界未雨绸缪,合理整合AI的辅助功能,推动数学领域的新革命。 这场秘密会议不仅展示了现代AI在数学推理领域的惊人破局,也反映出人类智慧在面临人工智能高速崛起时的复杂心理。从震惊、敬畏到反思和适应,学术界正在经历一场前所未有的转型。未来,数学可能不再是孤立的精英活动,而是人与机器协作、交互和共同创新的新纪元。强大的AI推理助手将成为探索未知领域的得力伙伴,而人类的核心竞争力将在于深层次的创意构思、跨领域的整合思维以及对科学理念的持续追问。数学的未来因此充满无限可能,也让我们对智慧的边界有了全新的认识。
。