AI数学突破,是真有天分吗?这群数学家,究竟发现了什么?

2025-10-19 09:55:02 作者:Vali编辑部

最近,30位世界顶尖数学家亲赴UC伯克利,用两整天时间向OpenAI的o4-mini发起数学难题攻击。结果出人意料,这些教授级难题在AI面前竟显得不堪一击。有人直言:这个AI已经接近数学天才的水平。曾经以为AGI遥遥无期,如今仿佛只剩临门一脚了……

AI做数学到底有多强?

五月中旬的一个周末,全球顶尖数学家们齐聚一堂,与一个推理聊天机器人展开对决。这场秘密数学峰会的参赛者,正是OpenAI的o4-mini。它需要解答专家们精心设计的难题。结果让所有参与者都感到意外,AI的表现远超预期。

这场测试中,o4-mini展现出了惊人的数学推理能力。它不仅能够解决复杂的数学问题,还能在短时间内完成大量计算。这种能力让许多数学家都感到震撼,有人甚至认为它已经接近数学天才的水平。

顶尖数学家们,服了

在五月中旬的一个周末,一场秘密数学峰会悄然召开。三十位全球顶尖数学家与一个推理聊天机器人展开对决,后者需要解答专家们专门设计的难题。结果如开头所见,数学家们彻底服了。

这次参赛的机器人,背后就是OpenAI的o4-mini。它已经能进行极其复杂的推理。当然,它并不是世界上唯一有此能力的模型,谷歌的Gemini 2.5 Flash也具备相似的能力。

为什么o4-mini做起数学题来,能这么强?

这是因为,它是基于专门的数据集训练,并获得了更强的RLHF。这种方法,就能让它比传统的LLM更深入地钻研复杂数学问题。

Epoch AI,寻根问底

而训出o4-mini后,OpenAI也一直十分关注它的解题能力。为了追踪o4-mini的进展,OpenAI此前曾委托非营利组织Epoch AI设计300道解法尚未公开的数学题,专门来考验大模型。

这些题的亮点就在于,因为解法并未问世,就绝不可能存在于训练数据中。果然,当Epoch AI用这些与训练数据截然不同的问题去测试几款推理模型时,它们几乎全部翻车了。即使表现最好的模型,解出率也不到2%。

o4-mini的惊人表现让所有研究人员都感到惊叹。它不仅能够快速解决复杂问题,还能在短时间内完成大量计算。这种能力让许多数学家都感到震撼,有人甚至认为它已经接近数学天才的水平。

T4级测试,AI展现惊人能力

在T4级测试中,o4-mini的表现更加令人惊叹。它不仅能够解决复杂的数学问题,还能在短时间内完成大量计算。这种能力让许多数学家都感到震撼,有人甚至认为它已经接近数学天才的水平。

o4-mini的速度也令人惊异。它远远超越了专业的数学家,人类专家需要数周甚至数月才能完成的工作,它只需要几分钟。不仅如此,这次o4-mini的进步,也给人类敲响了警钟。

Ono和He都担心,o4-mini给出的结果可能会被人们过度信赖。他们认为,证明方法有归纳法、反证法,现在又多了个恐吓法。当某人用足够权威的口吻说话时,人们会感到敬畏。o4-mini已经掌握了恐吓式证明的精髓,因为它说每句话时都带着不容置疑的自信。

会议临近结束时,整个团队也开始思考,数学家的未来将何去何从。讨论转向了那个无法回避的T5——那些连最顶尖的数学家也无法解决的问题。如果最终,AI达到了那个层次,那么显然,数学家的角色将经历剧变。

到那时,数学家或许将转向只负责提出问题,并与推理机器人互动,引导它们发现新的数学真理,就像教授指导研究生一样。因此,Ono预测,在高等教育中培养创造力,将是让数学这门学科薪火相传的关键。

陶哲轩:早就知道了

其实AI做数学研究的这种超绝能力,陶哲轩早就心知肚明了。最近,他一直在社交平台上做出密集分享,给我们汇报AI解数学题的惊人进展。比如就在几天前,他刚刚分享了这个消息。

一道封尘18年的数学难题,在短短30天内被AlphaEvolve与人类联手三度突破!6月2日,Fan Zheng在arXiv亮出的最新论文——又又又一次把和差集指数θ纪录往上推了0.000027,从1.173050提升到了1.173077。

0.000027——一个在显微镜下才分辨得出的跨度,却把加法组合学的天花板又往上顶了一寸。论文地址:https://www.valimart.net/

如此迅速、连续的取得进展,都离不开数学家与AI(AlphaEvolve)的相互配合。这种突破让陶哲轩都惊叹:「对我而言,这是一个引人入胜的例证。」

陶哲轩认为,这展示了未来的数学研究中,高度计算机辅助、中度计算机辅助与传统「纸笔」方法之间将如何相互作用。这些范式各有优劣。例如,当前的AlphaEvolve还极难用上后续论文中使用的渐近构造;但另一方面,若没有AlphaEvolve的暴力搜索,人类方法也很难发现这些改进的切入点。

而在上个月,陶哲轩还刚刚联手AI,挑战了分析学经典中的「ε-δ」极限问题。GitHub Copilot在帮助新手入门和处理基础任务时表现得相当不错。它能帮助用户快速上手Lean语言,提供语法提示,并智能补全基本定义和声明。

在比较简单的证明,比如函数极限的和定理中,Copilot还能准确预测证明结构和关键步骤,表现得就像个得力助手一样。但当证明变得复杂时,Copilot的短板就暴露出来了。比如在处理函数极限的差和积定理时,它在复杂的代数推导、寻找合适的数学引理(比如与绝对值相关的引理)等方面显得力不从心。

Copilot有时还会出现「幻觉」,生成压根不存在的策略,或者犯一些低级错误,导致证明过程乱成一团。这时,陶哲轩不得不亲自出马,修正错误,甚至完全接管证明。

但总之,现在LLM的发展,已经让我们愈发接近曾经陶哲轩的那个预言了——在2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。