SeePhys数据令人咋舌?多模态AI的瓶颈在哪儿?多模态AI到底差在哪?这个新基准能说明什么?
最近,一个全新的物理推理基准测试工具在学术界掀起了讨论热潮。这项名为SeePhys的测试体系,针对当前主流大模型在多模态物理推理任务中的表现展开系统评估。测试结果显示,即使是Gemini-2.5-Pro和o4-mini等顶尖模型,在涉及复杂科学图表与理论推导结合的任务中,准确率也未能突破55%大关。这一结果引发学界对多模态推理能力的深入思考。
SeePhys测试体系的出现,源于物理学科在人工智能测评中的特殊地位。相比数学领域,物理知识体系更为庞大,逻辑链条更复杂,且天然地将抽象规律与视觉图像结合。从电路图到费曼图,从受力分析到时空曲率图,这些视觉元素构成了理解物理世界的重要桥梁。当前主流测评体系要么缺乏视觉组件,要么仅覆盖单一知识层级,难以全面检验模型的物理思维能力。SeePhys的诞生,正是为了解决这一测评空白。
这项测试体系的构建展现出三个核心特点。首先,知识覆盖范围跨度极大,从初中到博士资格考试的各个层级均有涉及。测试内容涵盖经典力学、电磁学、量子物理等7大领域,题目数量超过2000道,图表素材达2245张。这种全谱系设计能够有效评估模型在不同知识阶段的表现差异。
其次,测试体系特别强调视觉元素的重要性。在构建问题时,研究团队根据图表是否包含关键解题信息进行分类,优先选择具有强视觉依赖性的题目。这种设计既考验模型对视觉信息的提取能力,也检验其将视觉信息转化为逻辑推理的水平。
再者,SeePhys采用跨模态耦合的测试方式,要求模型同时处理符号公式、几何关系和现实世界建模。这种多模态测试方式与实际应用场景高度契合,能够更真实地反映模型在复杂任务中的表现。
测试结果显示,当前主流大模型在视觉-文本对齐能力方面仍存在明显短板。以Gemini-2.5-Pro为例,其在初中物理题上的准确率不足70%,这表明模型在理解视觉信息与文本描述之间仍存在断层。更值得关注的是,纯语言模型的表现与多模态模型相差无几,这说明视觉信息对模型推理能力的提升作用显著。
测试团队发现,不同图表类型对模型表现的影响存在明显差异。波动方程图和电路图等复杂图表,成为模型识别的难点。这种系统性识别障碍暴露了当前多模态模型在处理特定视觉信息时的局限性。
视觉信息对模型推理能力的提升作用尤为突出。在视觉富集问题中,添加图像描述或直接输入图文交织问题,都能显著提升模型准确率。即便是非必要性图表,也能帮助模型建立更完整的认知框架。这种现象说明,视觉提示在问题理解过程中起到了关键作用。
知识注入效果在不同模型间表现各异。较弱模型在高年级问题上出现明显性能衰减,而较强模型则保持相对稳定。这种差异表明,知识注入带来的性能提升已进入边际效应阶段。同时,测试还发现,当前模型更擅长记忆存储而非逻辑推理,这解释了为何高级奥赛题的准确率反而低于博士资格考试。
测试团队对100个样本进行了人工分析,归纳出9种常见错误模式。建模缺陷是最普遍的问题,所有模型都存在定理和公式误用现象。相比之下,文本误读和数值计算错误相对较少。不同模型在过度思考和过度简化错误上表现差异显著,其中Qwen2.5-VL-3B模型出现了21%的重复输出率。
SeePhys测试体系的推出,标志着多模态推理能力评估进入新阶段。这项测试不仅为模型性能提供了客观评估标准,也为后续研究指明了方向。随着测试体系的不断完善,我们有望看到AI在物理推理领域取得更大突破。
参与这项测试的团队来自中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学,测试成果已在ICML 2025 AI for MATH Workshop中开放评估。学界和工业界的研究者均可通过项目主页参与挑战,共同推动多模态推理技术的发展。