大模型测评,山东卷成绩揭晓?Gemini、豆包表现如何?

2025-10-18 08:00:51 作者:Vali编辑部

2025年山东高考的考场,迎来了一批特殊的考生——AI大模型。这些"考生"的表现引发热议,从去年勉强过一本线,到今年冲击清北、保底985,仅用一年时间就完成了从"普通本科"到"双一流"的蜕变。

这次高考测试中,Gemini、豆包等AI模型展现出惊人进步。在文综科目中,豆包以270分的高分遥遥领先,地理和历史科目双双突破90分大关。这种表现得益于其在结构化资料处理和逻辑推演方面的优化,特别是在理解图文结合的地理题时表现突出。

理科方面,Gemini以248分的成绩位居榜首,比第二名豆包高出13分。不过生物、化学等科目因涉及较多读图题,测试时输入的图片模糊,限制了多模态模型的发挥。但当使用高清版本试题图后,豆包在生化两科上的总分可再提升近30分,理科总分达到676分。

技术进步是这次表现飞跃的关键。Gemini 2.5 Pro通过思维链进行深度推理,显著提升数学、科学与代码推理水平。OpenAI的o3模型首次将图像融入思维链,能处理文本、音频、图像等多类型信息。豆包则通过多模态混合训练和长上下文处理,支持高达256K的上下文长度,能处理更复杂的问题。

从今年的测试结果看,AI模型在文本理解和生成、多模态处理、推理能力等方面都有显著提升。它们开始理解题目背后的深层逻辑和价值观,能处理特定学科的图像信息,生成的答复也有了思想深度。

这种进步让高考这个检验AI"智力"水平的"试金石"似乎不再具备挑战性。明年是否还需要让AI参加高考?或许可以告别标准化考试框架,更深度地融入科学研究、艺术创作、编程开发等真正创造"生产力"的领域,解决真实世界中那些没有标准答案的复杂难题。

AI的持续进化,正在改变我们对智能的认知。从"学渣"到"学霸"的蜕变,不仅是技术进步的见证,更是人类智慧与机器智能融合的新起点。