高考“直升”985，大模型能帮多远？考场AI辅助，效果几何？

2025-10-17 11:25:02 作者：Vali编辑部

**高考AI表现总结：优势与挑战并存** **1. 学科表现分析** - **文科优势显著**：AI在文综（地理、政治、历史）中表现突出，地理科目进步最大（平均分增长20.3分），文综最高分达253.5分，远超理综（213.25分）。 - **理科挑战重重**：理综科目中，化学、地理等对复杂图形理解要求高，AI表现较弱。例如，地形地貌题（第19题）中，模型普遍失分严重，甚至出现“拔河高度”专业概念计算错误。 - **语言类科目表现分化**：英语阅读题中，AI能快速理解内容，但需人工提示；语文作文评分中，AI与人类审美趋同，但未表现出对自家作品的偏好。 **2. 高考测试中的AI能力** - **强项**： - **多模态理解**：地理图题理解力提升，能快速分析地形地貌。 - **应试策略**：在无需联网情况下，头部AI文综得分率超80%，接近人类优等生水平。 - **弱项**： - **幻觉问题**：AI易凭空编造内容（如元宝在测试中自动生成不存在的题目）。 - **实时交互不足**：需人工引导才能完成答题，无法实现“全自动解题”。 - **稳定性不足**：视频模型对提示词、翻页速度等变化敏感，答案波动大。 **3. 彩蛋测试：AI作弊可行性** - **AI眼镜作弊测试**： - **幻觉问题**：模型易编造内容，导致测试中断。 - **交互依赖**：需人工提示才能作答，距离“全自动解题”仍有差距。 - **结果不稳定**：相同问题因提示时间、镜头晃动等差异，答案可能完全不同。 - **结论**：当前AI在考场作弊仍需人工干预，属于“科幻情节”，但能快速解析屏幕内容，展现强大潜力。 **4. AI自我评分实验** - **交叉打分**：AI对其他模型生成的作文评分与人类一致，未表现出对自家作品的偏好。 - **人类审美趋同**：AI能识别优质作文，但自身创作可能因风格差异被低估（如元宝作文在自我评分中接近最低分）。 **5. 高考作为AI能力评估的“快照”** - **意义**：高考是知识掌握、逻辑推理与应试策略的综合测试，为AI能力提供清晰的“刻度表”。 - **未来展望**：随着AI逼近人类水平，高考可能不再成为区分AI能力的“终点”，而是其成长历程中的“旧照片”。 - **矛盾特质**：AI时而展现顶尖人类才华，时而暴露认知盲区（如基础问题错误），凸显其发展非线性。 **总结**：AI在高考中表现出显著优势（尤其文科），但也面临复杂图形理解、实时交互等挑战。高考作为AI能力的“快照”，既见证了其进步，也揭示了未来发展的方向。AI的下一站，是更复杂的现实世界，而高考只是其征途的起点。

高考“直升”985，大模型能帮多远？ 考场AI辅助，效果几何？

高考“直升”985，大模型能帮多远？考场AI辅助，效果几何？