大模型解高考数学,分数差距大吗?它能准确预测你的能力吗?

2025-10-19 09:40:03 作者:Vali编辑部

最近几天,关于AI测试高考题的讨论特别火热。说实话,我其实没打算参与这个话题,毕竟大家都抢着写,我也想歇一歇。但看到有些用AI做数学题的测评文章,感觉特别滑稽,简直像地铁上看到老人表情包一样,测试方法太牵强了。

考试应该讲求公平公正,不能光图热闹。现在有些测评文章,用AI测试语文题还说得过去,但数学题就有点儿意思了。那些测试方法,看着就不太靠谱,容易误导读者。所以我决定换个方式,用更严谨的方法测试一下大模型的数学能力,让大家看到真实客观的评分结果。

这次测试的是2025年全国一卷的数学题。测试规则有六个要点:第一,不考解答题,因为标准答案我也不太看得懂,分得不准。第二,所有题目截图都要用LaTeX编辑器转成文本格式,再扔给大模型回答。LaTeX是学术界最常用的数学公式排版语言,能准确表达数学符号,这样测试模型的数学能力更公平。第三,剔除掉单选题第6题,因为这题有图表,转成文字容易理解偏差。第四,单题计分标准按照高考原则执行。第五,每道题让大模型跑三遍,根据正确率分配分数。第六,测试时只开推理功能,不使用Prompt引导,不开联网,也不允许写代码在沙盒计算。

测试模型包括OpenAI o3、Gemini 2.5 pro、DeepSeek R1、豆包(1.5-thinking-pro)、元宝(混元T1)、千问3(235B)、讯飞星火X1,都是推理模型。测试时间选在凌晨两点,因为写脚本反而麻烦,直接复制粘贴测试更省事。为了确保结果准确,还叫了几位朋友一起参与,硬生生测到凌晨四点。

测试内容包括7道单选题、3道多选题、3道填空题,总分68分。测试结束后,我们得出了非常公平的评分结果。整个过程没有收任何费用,也没有任何利益关系,全部客观公正。

第9题是个多选题,只有Gemini 2.5 Pro每次都答对,其他模型几乎都有问题,D选项倒是全答对了,但漏了B选项。DeepSeek R1在第11题多选题中,明明做对了却故意作答错误,这种失误挺有意思。

最终成绩显示,Gemini表现非常出色,逻辑上没有一题错。豆包、混元、星火紧随其后,但在第9题漏掉一个选项,排名第二。DeepSeek半对半错,丢了0.7分,排名第五。Qwen3和OpenAI o3因为填空题两次出错,只能垫底。

通过这次测试,大家对模型的数学能力应该有更清晰的认识。其实,大模型之间差距并不大,出错也大多是幻觉导致。高考对现在的推理大模型来说,难度已经不大,和2023年比起来简直是天壤之别。

很多测评文章结果离谱,其实不是模型的问题,而是截图识别错误。比如将\complement_{U} A识别成CuA,这种错误挺常见的。折腾这么久,这场公平的AI数学考试终于结束了。

打完最后一个结果时,我松了口气。其实我们熬夜这么久,不只是为了得出一个分数,更想看看怎么才算是一场合格的AI考试。规则要公正,流程要严谨,技术要中立,少点夸张,多点真相。我始终相信,无论是对技术还是对人生,严谨总能让我们更接近真实,而真实,总能给我们更多自由。