全新AI评测基准,它究竟咋样?能颠覆现有AI工具认知吗?

2025-10-13 10:00:26 作者:Vali编辑部

AI模型真能像博士一样推理吗?

最近有个新发现让人挺意外——谷歌、OpenAI等大厂的AI模型在数学奥林匹克竞赛中拿到了金牌,这让不少人开始觉得这些模型已经具备了博士级的推理能力。但事实真的如此吗?

其实事情没那么简单。有个叫AAI的机构专门研究超智能系统,他们最近推出的新测试FormulaOne让所有大模型都栽了跟头,包括GPT-5、o3 Pro、Gemini 2.5 Pro这些顶流模型。

FormulaOne测试了220道全新设计的图结构动态规划题,难度从普通到科研级别分三档。最厉害的题目涉及拓扑几何、组合问题分析等高阶内容。比如有一道题要解决Maximal-Cluster-Graph难题,需要十五个步骤的严密推导。

这些题虽然描述看起来不难,但解题过程却暗藏玄机。测试题分为浅层、深层、更深层三个等级。比如浅层题可能只是简单的路径规划,深层题需要构建复杂的树分解结构,而最深层题要处理动态规划状态的转换。

这套测试的核心是Courcelle定理,它指出只要图结构类似树,任何用一元二阶逻辑定义的问题都可以用动态规划解决。这就像给复杂问题装上了导航系统,让算法能一步步分解解决。

但实际操作起来远比理论复杂。比如要设计一个状态机,当顶点被加入或移除时,状态要能准确记录必要信息。这种精妙的逻辑转换需要极强的数学直觉,不是简单的模式识别就能搞定。

测试结果显示,浅层题大模型表现不错,解对率在50%-75%之间。但深层题就难多了,Grok 4、Gemini-Pro等模型最多解出1/100的题目,GPT-5 Pro也只能解出4/100。最深层题更是让所有模型集体崩溃。

这说明当前AI虽然能处理大量数据,但在解决需要深刻逻辑推导的问题时还有明显短板。就像做数学题,基础题能解,但遇到需要创造性思维的难题就卡住了。

AAI是一家成立于2023年的以色列AI公司,由自动驾驶专家Amnon Shashua创办。这家公司专注于开发"人工专家智能",把领域知识和科学推理结合起来。他们的目标是让AI像顶级专家一样,用严谨的逻辑解决复杂问题。

短短一年时间,AAI已经获得数千万美元投资,并入选AWS 2024生成式AI加速器项目。这说明行业对这种新方向有很高期待。但真正要让AI具备博士级推理能力,可能还需要更多突破。

这个测试结果给了我们一个重要提示:AI工具在实际应用中,不能只看表面表现。比如做鞋履设计时,如果遇到需要复杂结构分析的难题,现有的AI可能还不够给力。这提醒我们,在选择AI工具时,要更关注它们的推理深度和问题处理能力。

从这个角度看,FormulaOne测试不仅是对AI的考验,也为用户提供了参考标准。就像选鞋要试穿,选AI工具也要看它能否应对真实场景中的复杂问题。这或许会推动AI工具在设计、制造等领域的进一步发展。