高考数学：谁是新卷真赢家？各大模型表现，结果出乎意料吗？

2025-10-19 09:40:39 作者：Vali编辑部

今年高考数学题让不少考生直呼「难上加难」，这不仅考验着学生的数学能力，也成了检验大模型推理水平的绝佳试金石。作为评测机构，我们特意选取了2025年新课标Ⅰ卷中的14道客观题，对六款主流大模型进行了一场「高考数学PK赛」。

这次测试采用的是最严格的测评标准：所有题目都以截图形式投喂给模型，不提供任何提示，也不允许联网搜索。每道题都单独计分，单选题8道、多选题3道、填空题3道，总分73分。为了确保公平，我们特别安排了三位数学专家组成评判小组，对每道题的正确性进行最终确认。

从最终成绩来看，豆包和元宝以68分并列第一，展现出惊人的数学推理能力。DeepSeek和通义分别获得63分、62分，虽然略逊一筹，但也在及格线以上。文心X1 Turbo则只拿到51分，正确率不足70%。最让人意外的是OpenAI的o3，仅得34分，正确率只有47%。

这6家大模型中，豆包和元宝的表现最为亮眼。虽然都在第6道单选题上栽了跟头，但整体得分依然保持在较高水平。值得注意的是，这两款模型在处理多选题时表现出色，三道题都拿到了满分。相比之下，DeepSeek和通义在多选题上失误较多，尤其是通义在一道题中答错两个选项，最终导致扣分。

填空题的测试结果也显示，有四家模型都拿到了满分。其中文心X1 Turbo虽然答题思路正确，但因为最后多说了一句「通常取正值」，导致失去一分。这说明即使模型理解了题意，也仍可能因为表述不当而影响最终得分。

从测试过程来看，大模型在处理数学题时展现出明显进步。去年同类型测试中，多数模型连及格线都没达到，现在则有五款模型都突破了43.8分的及格线。更值得肯定的是，模型开始具备反思能力，遇到错误会主动推倒重来，像DeepSeek就经常反复验证答案，虽然耗时更长，但准确性更高。

不过，大模型在数学推理中仍存在一些明显短板。首先是计算细节错误，即使模型理解了题意，推理方向正确，最后也容易在中间步骤出错。比如符号看错、公式套错、代数变形不规范等问题时有发生。其次是图形与几何直觉的处理能力不足，解析几何类题目需要较强的空间感和图形理解，这对语言模型来说是天然短板。

在逻辑推理链较长或题型设计较「逆向」的题目中，模型还可能表现出蒙答案的倾向。看似给出了结论，但中间链条无法自洽或存在明显漏洞。此外，对题目条件的敏感度不够，模型有时会忽略某些隐含条件，导致结论偏差。特别是在多选题中，模型容易满足于找到一个正确选项而不穷尽其他可能，从而漏选或误选。

这次测试也暴露出模型在处理复杂题型时的不足。比如一道解析几何题，虽然模型能正确列出方程，但因为缺乏空间想象力，在判断曲线形状时出现偏差。这种问题在数学推理中尤为关键，因为最终答案往往取决于对图形特征的准确把握。

值得注意的是，模型在处理代数运算时表现出色，但对几何证明题的处理仍显吃力。这说明大模型在数学能力的培养上，仍需要在不同领域加强训练。虽然目前的推理能力已经大幅提升，但要达到人类水平仍有很长的路要走。

从整体表现来看，大模型在数学推理方面取得了显著进步。这不仅体现在得分的提升，更反映在推理过程的完善。现在大多数模型都能系统性地展示完整的推理链路，从问题分析、公式选择、计算步骤到结果验证，每个环节都有清晰的逻辑阐述。即使是数学基础相对薄弱的用户，也能通过模型提供的详细解析过程，深入理解问题的本质和解决思路。

这次评测也给我们带来了一些启示。首先，模型在数学推理中的进步，离不开各家公司在算法和训练数据上的持续投入。其次，模型的反思能力和推理步骤的完善，是提升准确率的关键因素。最后，模型在处理不同数学领域时的表现差异，也提醒我们在后续训练中需要更加注重各领域的均衡发展。

随着技术的不断进步，大模型的数学能力还会持续提升。相信在不久的将来，这些模型不仅能准确解答数学题，还能像人类一样，理解数学的内在逻辑和美感。对于正在备考的学生来说，这次测试也提供了重要的参考价值，帮助他们更好地把握数学学习的重点和难点。

最后，预祝所有考生都能在高考中发挥出色，实现自己的理想！