大模型解高考数学，分数差距大吗？它能准确预测你的能力吗？

2025-10-19 09:40:03 作者：Vali编辑部

最近几天，关于AI测试高考题的讨论特别火热。说实话，我其实没打算参与这个话题，毕竟大家都抢着写，我也想歇一歇。但看到有些用AI做数学题的测评文章，感觉特别滑稽，简直像地铁上看到老人表情包一样，测试方法太牵强了。

考试应该讲求公平公正，不能光图热闹。现在有些测评文章，用AI测试语文题还说得过去，但数学题就有点儿意思了。那些测试方法，看着就不太靠谱，容易误导读者。所以我决定换个方式，用更严谨的方法测试一下大模型的数学能力，让大家看到真实客观的评分结果。

这次测试的是2025年全国一卷的数学题。测试规则有六个要点：第一，不考解答题，因为标准答案我也不太看得懂，分得不准。第二，所有题目截图都要用LaTeX编辑器转成文本格式，再扔给大模型回答。LaTeX是学术界最常用的数学公式排版语言，能准确表达数学符号，这样测试模型的数学能力更公平。第三，剔除掉单选题第6题，因为这题有图表，转成文字容易理解偏差。第四，单题计分标准按照高考原则执行。第五，每道题让大模型跑三遍，根据正确率分配分数。第六，测试时只开推理功能，不使用Prompt引导，不开联网，也不允许写代码在沙盒计算。

测试模型包括OpenAI o3、Gemini 2.5 pro、DeepSeek R1、豆包（1.5-thinking-pro）、元宝（混元T1）、千问3（235B）、讯飞星火X1，都是推理模型。测试时间选在凌晨两点，因为写脚本反而麻烦，直接复制粘贴测试更省事。为了确保结果准确，还叫了几位朋友一起参与，硬生生测到凌晨四点。

测试内容包括7道单选题、3道多选题、3道填空题，总分68分。测试结束后，我们得出了非常公平的评分结果。整个过程没有收任何费用，也没有任何利益关系，全部客观公正。

第9题是个多选题，只有Gemini 2.5 Pro每次都答对，其他模型几乎都有问题，D选项倒是全答对了，但漏了B选项。DeepSeek R1在第11题多选题中，明明做对了却故意作答错误，这种失误挺有意思。

最终成绩显示，Gemini表现非常出色，逻辑上没有一题错。豆包、混元、星火紧随其后，但在第9题漏掉一个选项，排名第二。DeepSeek半对半错，丢了0.7分，排名第五。Qwen3和OpenAI o3因为填空题两次出错，只能垫底。

通过这次测试，大家对模型的数学能力应该有更清晰的认识。其实，大模型之间差距并不大，出错也大多是幻觉导致。高考对现在的推理大模型来说，难度已经不大，和2023年比起来简直是天壤之别。

很多测评文章结果离谱，其实不是模型的问题，而是截图识别错误。比如将\complement_{U} A识别成CuA，这种错误挺常见的。折腾这么久，这场公平的AI数学考试终于结束了。

打完最后一个结果时，我松了口气。其实我们熬夜这么久，不只是为了得出一个分数，更想看看怎么才算是一场合格的AI考试。规则要公正，流程要严谨，技术要中立，少点夸张，多点真相。我始终相信，无论是对技术还是对人生，严谨总能让我们更接近真实，而真实，总能给我们更多自由。