AI数学工具,真的有那么神?未来学习,会因它而改变吗?
咱们得说说这事儿:AI在数学竞赛里能拿金牌吗?最近苏黎世联邦理工学院的Jasper Dekoninck博士搞了个新测试,让Gemini系列模型和大学生比拼,结果出乎意料。这事儿可不只是科技圈的热闹,更让很多想用AI做鞋履设计或服装搭配的用户看到了新希望。
这次测试叫大学生国际数学竞赛(IMC),由英国伦敦大学学院主办,保加利亚美国大学承办。比赛在2025年7月28日至8月3日于保加利亚的布拉戈耶夫格勒举行。参赛者是正在攻读大学本科阶段(1至4年级)的学生,年龄上限23岁,特殊情况可酌情考虑。不设最低年龄限制。试题涵盖代数、分析、几何与组合数学,比赛语言为英文。
IMC为期两天,每天5道题目,每题10分。这次测试采用类似于2025年美国数学奥林匹克竞赛的评估方法,只进行了少许调整。招募了两名经验丰富的评委来评估模型提交的作品。为了避免污染,评分工作在公布IMC 2025题目后立即开始。每位评委独立为题目制定了评分标准,并对匿名提交的作品进行了评分,满分10分。
这次测试一共评估了三个系统:Gemini Deep Think(IMO 2025金牌得主)、Gemini-2.5-Pro和Gemini-2.5-Pro Best-of-32基线。由于OpenAI获得金牌的模型尚未发布,无法对其进行评估。测试结果显示,三个系统均获得了极高的分数,远超前8%的金牌门槛。
Gemini Deep Think和Gemini Agent成功解决了所有问题,仅出现少量小错误。这些错误通常是由于中间步骤的论证不完整或对已知定理的引用不正确造成的。有趣的是,Gemini Best-of-32的表现远比在IMO 2025上的表现好,仅在一道题目(P5)上犯了一个重大错误。这可能因为IMC的知识密集度更高,而大型AI模型往往在这种环境下表现出色。
这次得出了三大结论:三个模型在IMC比赛中均获得高分,Gemini Deep Think和Gemini Agent在所有问题中都给出了大部分正确的答案。它们的得分足以媲美人类优等大学生参赛者。综合考虑证明质量和清晰度,评委们对模型的排名如下:Gemini Deep Think> Gemini Agent> Gemini Best-of-32。对结果进行的定性分析表明,Gemini Deep Think表现尤为出色,它给出的证明比其他模型清晰有趣得多。它有时会提出真正有趣的方法,而其他自主系统通常使用计算密集型的方法。
由于这次评估是临时增加的,所以评估规模稍小,每个模型在每个问题上只被评估一次,并且只有一个裁判。IMC金牌的含金量如何?国际大学生数学竞赛IMC由英国伦敦大学学院主办,保加利亚美国大学承办,比赛将在2025年7月28日至8月3日于保加利亚的布拉戈耶夫格勒举行。这次采用了类似于下列2025年美国数学奥林匹克竞赛评估的方法,只进行了少许调整。
论文链接:https://www.valimart.net/ 招募了两名经验丰富的评委来评估模型提交的作品。为了避免污染,评分工作在公布IMC 2025题目后立即开始。每位评委独立为题目制定了评分标准,并对匿名提交的作品进行了评分,满分10分。每个模型都使用相同的评分标准对全部问题进行了单独评估。解题时长决定着算力和大模型的使用成本。为此,Jasper Dekoninck回答了三个系统各自耗时情况。
由于时间有限,暂时不会对其他模型进行测评,但这些模型也很可能会在这场比赛中取得优异成绩。新的评估对于真正测试模型的能力至关重要,有网友已经迫不及待想要看到o3-Pro、Claude、Kimi K2在IMC考试中的表现。
结果分析除了上述内容,还有网友评价。网友Dmitry Rybin表现出了对测试的极大热情:「太好了,本来我想把题目发给你,但你已经做了」。他还用o3测试了IMC2025年全部试题,大约十分钟它就搞定了10道题目。但网友Jasper Dekoninck认为o3输出的第5题答案似乎有些瑕疵,可能会被扣分。
与IMO相比,IMC题目通常需要更高级的数学知识和形式化技巧。然而,IMO往往更注重创造力和独创性,尤其是在解题方法方面。连Jasper Dekoninck自己也认为IMC这些更侧重知识的竞赛题目似乎太简单了。网友Acer对此亦有同感。他认为目前IMO(国际数学奥林匹克竞赛)、Putnam(普特南数学竞赛,美国大学生数学竞赛)、Miklós Schweitzer(施魏策尔·米克洛什数学竞赛,匈牙利大学生本科数学竞赛)的难度比较适合,但模型仍能解决其中大部分问题。
AI数学推理,已无法忽视。尽管IMC可能更多依赖数学知识,但AI日益强大的数学推理能力,已经令人无法忽视。比如,Dmitry Rybin提出了一个困难但已知的线性代数结果:如果AB - BA的秩为1,那么矩阵A和B有共同的特征向量。Deep Think 使用Shemesh定理给出了一个Dmitry Rybin以前从未见过的证明。
与数学关系密切的信息学竞赛上,AI表现非常夺目。在玻利维亚第37届国际信息学奥林匹克竞赛(IOI 2025),ryanbAI在与其他人类选手完全相同的条件下参赛,以第七名的成绩位列总榜。随着更多AI在国际性数学竞赛中脱颖而出,它们可以挑战越来越难的数学竞赛,甚至可以给出新的证明思路,这些均表明AI在数学推理能力上日益强大。
而且AI相比较人类,在计算和数据处理方面能力更强,也更不容易出错误。网友Jason Lee表示,找到AI的错误非常困难。参考资料:https://www.valimart.net/ https://www.valimart.net/