全新AI评测基准，它究竟咋样？能颠覆现有AI工具认知吗？

2025-10-13 10:00:26 作者：Vali编辑部

AI模型真能像博士一样推理吗？

最近有个新发现让人挺意外——谷歌、OpenAI等大厂的AI模型在数学奥林匹克竞赛中拿到了金牌，这让不少人开始觉得这些模型已经具备了博士级的推理能力。但事实真的如此吗？

其实事情没那么简单。有个叫AAI的机构专门研究超智能系统，他们最近推出的新测试FormulaOne让所有大模型都栽了跟头，包括GPT-5、o3 Pro、Gemini 2.5 Pro这些顶流模型。

FormulaOne测试了220道全新设计的图结构动态规划题，难度从普通到科研级别分三档。最厉害的题目涉及拓扑几何、组合问题分析等高阶内容。比如有一道题要解决Maximal-Cluster-Graph难题，需要十五个步骤的严密推导。

这些题虽然描述看起来不难，但解题过程却暗藏玄机。测试题分为浅层、深层、更深层三个等级。比如浅层题可能只是简单的路径规划，深层题需要构建复杂的树分解结构，而最深层题要处理动态规划状态的转换。

这套测试的核心是Courcelle定理，它指出只要图结构类似树，任何用一元二阶逻辑定义的问题都可以用动态规划解决。这就像给复杂问题装上了导航系统，让算法能一步步分解解决。

但实际操作起来远比理论复杂。比如要设计一个状态机，当顶点被加入或移除时，状态要能准确记录必要信息。这种精妙的逻辑转换需要极强的数学直觉，不是简单的模式识别就能搞定。

测试结果显示，浅层题大模型表现不错，解对率在50%-75%之间。但深层题就难多了，Grok 4、Gemini-Pro等模型最多解出1/100的题目，GPT-5 Pro也只能解出4/100。最深层题更是让所有模型集体崩溃。

这说明当前AI虽然能处理大量数据，但在解决需要深刻逻辑推导的问题时还有明显短板。就像做数学题，基础题能解，但遇到需要创造性思维的难题就卡住了。

AAI是一家成立于2023年的以色列AI公司，由自动驾驶专家Amnon Shashua创办。这家公司专注于开发"人工专家智能"，把领域知识和科学推理结合起来。他们的目标是让AI像顶级专家一样，用严谨的逻辑解决复杂问题。

短短一年时间，AAI已经获得数千万美元投资，并入选AWS 2024生成式AI加速器项目。这说明行业对这种新方向有很高期待。但真正要让AI具备博士级推理能力，可能还需要更多突破。

这个测试结果给了我们一个重要提示：AI工具在实际应用中，不能只看表面表现。比如做鞋履设计时，如果遇到需要复杂结构分析的难题，现有的AI可能还不够给力。这提醒我们，在选择AI工具时，要更关注它们的推理深度和问题处理能力。

从这个角度看，FormulaOne测试不仅是对AI的考验，也为用户提供了参考标准。就像选鞋要试穿，选AI工具也要看它能否应对真实场景中的复杂问题。这或许会推动AI工具在设计、制造等领域的进一步发展。