高考数学:谁是新卷真赢家?各大模型表现,结果出乎意料吗?

2025-10-19 09:40:39 作者:Vali编辑部

今年高考数学题让不少考生直呼「难上加难」,这不仅考验着学生的数学能力,也成了检验大模型推理水平的绝佳试金石。作为评测机构,我们特意选取了2025年新课标Ⅰ卷中的14道客观题,对六款主流大模型进行了一场「高考数学PK赛」。

这次测试采用的是最严格的测评标准:所有题目都以截图形式投喂给模型,不提供任何提示,也不允许联网搜索。每道题都单独计分,单选题8道、多选题3道、填空题3道,总分73分。为了确保公平,我们特别安排了三位数学专家组成评判小组,对每道题的正确性进行最终确认。

从最终成绩来看,豆包和元宝以68分并列第一,展现出惊人的数学推理能力。DeepSeek和通义分别获得63分、62分,虽然略逊一筹,但也在及格线以上。文心X1 Turbo则只拿到51分,正确率不足70%。最让人意外的是OpenAI的o3,仅得34分,正确率只有47%。

这6家大模型中,豆包和元宝的表现最为亮眼。虽然都在第6道单选题上栽了跟头,但整体得分依然保持在较高水平。值得注意的是,这两款模型在处理多选题时表现出色,三道题都拿到了满分。相比之下,DeepSeek和通义在多选题上失误较多,尤其是通义在一道题中答错两个选项,最终导致扣分。

填空题的测试结果也显示,有四家模型都拿到了满分。其中文心X1 Turbo虽然答题思路正确,但因为最后多说了一句「通常取正值」,导致失去一分。这说明即使模型理解了题意,也仍可能因为表述不当而影响最终得分。

从测试过程来看,大模型在处理数学题时展现出明显进步。去年同类型测试中,多数模型连及格线都没达到,现在则有五款模型都突破了43.8分的及格线。更值得肯定的是,模型开始具备反思能力,遇到错误会主动推倒重来,像DeepSeek就经常反复验证答案,虽然耗时更长,但准确性更高。

不过,大模型在数学推理中仍存在一些明显短板。首先是计算细节错误,即使模型理解了题意,推理方向正确,最后也容易在中间步骤出错。比如符号看错、公式套错、代数变形不规范等问题时有发生。其次是图形与几何直觉的处理能力不足,解析几何类题目需要较强的空间感和图形理解,这对语言模型来说是天然短板。

在逻辑推理链较长或题型设计较「逆向」的题目中,模型还可能表现出蒙答案的倾向。看似给出了结论,但中间链条无法自洽或存在明显漏洞。此外,对题目条件的敏感度不够,模型有时会忽略某些隐含条件,导致结论偏差。特别是在多选题中,模型容易满足于找到一个正确选项而不穷尽其他可能,从而漏选或误选。

这次测试也暴露出模型在处理复杂题型时的不足。比如一道解析几何题,虽然模型能正确列出方程,但因为缺乏空间想象力,在判断曲线形状时出现偏差。这种问题在数学推理中尤为关键,因为最终答案往往取决于对图形特征的准确把握。

值得注意的是,模型在处理代数运算时表现出色,但对几何证明题的处理仍显吃力。这说明大模型在数学能力的培养上,仍需要在不同领域加强训练。虽然目前的推理能力已经大幅提升,但要达到人类水平仍有很长的路要走。

从整体表现来看,大模型在数学推理方面取得了显著进步。这不仅体现在得分的提升,更反映在推理过程的完善。现在大多数模型都能系统性地展示完整的推理链路,从问题分析、公式选择、计算步骤到结果验证,每个环节都有清晰的逻辑阐述。即使是数学基础相对薄弱的用户,也能通过模型提供的详细解析过程,深入理解问题的本质和解决思路。

这次评测也给我们带来了一些启示。首先,模型在数学推理中的进步,离不开各家公司在算法和训练数据上的持续投入。其次,模型的反思能力和推理步骤的完善,是提升准确率的关键因素。最后,模型在处理不同数学领域时的表现差异,也提醒我们在后续训练中需要更加注重各领域的均衡发展。

随着技术的不断进步,大模型的数学能力还会持续提升。相信在不久的将来,这些模型不仅能准确解答数学题,还能像人类一样,理解数学的内在逻辑和美感。对于正在备考的学生来说,这次测试也提供了重要的参考价值,帮助他们更好地把握数学学习的重点和难点。

最后,预祝所有考生都能在高考中发挥出色,实现自己的理想!