华人团队攻克编程难题，新基准能带来什么突破？每日更新的题目，如何高效备赛？

2025-10-18 10:20:19 作者：Vali编辑部

这波操作属实出乎意料。原本以为大模型在编程领域已经遥遥领先，结果在最新测试中直接被按在地上摩擦。谢赛宁团队设计的LiveCodeBench Pro测试，让o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1等主流模型集体翻车，连最被看好的o4-mini-high都栽了跟头。

这次测试就像给AI编程能力做了一次全面体检。题库来源特别讲究，直接从IOI、Codeforces和ICPC这些顶级编程竞赛中提取题目，而且每天更新题库，防止模型靠记忆答题。测试内容涵盖584道竞赛题，分知识密集型、逻辑密集型和观察密集型三大类，难度划分也经过正态分布算法自动筛选，确保每个难度段都有代表性。

测试结果显示，当前主流大模型在知识密集型和逻辑密集型问题上表现尚可，比如数据结构模板这类"死记硬背"题型。但遇到需要灵光一现的观察密集型题目，比如贪心算法或博弈论问题，就完全暴露短板。即便是表现最好的o3-mini-high，在工具调用被屏蔽的情况下，Elo评分也只有2100，距离真正大师级的2700传奇线还有不小差距。

测试团队对每个模型的解题过程进行了细致分析。他们不仅记录了代码的通过情况，还标注了错误原因，比如是思路错误还是实现错误。更有趣的是，如果代码无法通过题目自带的样例输入，会特别标记"样例未通过"。这种细到每个细节的分析，让测试结果更具说服力。

从测试数据看，模型在中等难度题的一次通过率只有53%，面对难题更是直接卡壳。这说明当前AI在算法设计层面还有明显不足，虽然能处理大量实现类问题，但遇到需要精细推理和复杂案例分析的题目就显得力不从心。很多模型给出的解释看似正确，实则存在逻辑漏洞。

测试团队还发现，模型的表现和工具依赖程度密切相关。当终端访问和网络搜索被屏蔽后，模型的解题能力明显下降。不过增加尝试次数（pass@k）能在一定程度上提升中等难度题的表现，但对难题依然无能为力。比如o3-high模型无论尝试多少次，都解不开困难分区的题目。

这次测试还揭示了一个重要现象：模型在组合数学这类知识密集型题型上提升明显，但对观察密集型题目帮助有限。这说明AI在处理需要创造性思维的问题时仍需加强。测试团队表示，每个季度都会更新评估集，确保测试数据的时效性和挑战性。

项目团队由一群竞赛高手组成，其中半数以上是华人。负责人郑子涵曾代表纽约大学参加ICPC世界总决赛获得第二名，现在在OpenAI实习。另一位负责人柴文浩在浙江大学和华盛顿大学完成学业后，将赴普林斯顿大学攻读博士。团队成员来自加州大学、普林斯顿大学等名校，展现出强大的学术背景。

这次测试的启示意义在于，虽然AI在编程领域取得显著进展，但距离真正掌握算法设计能力还有很长的路要走。对于需要AI鞋履或服装工具的用户来说，这项测试意味着当前的AI工具在处理复杂设计任务时仍需人工干预，特别是在需要创造性思维的环节。

从测试结果看，AI在实现类任务上表现优异，但面对需要深度算法推理和复杂案例分析的设计工作，仍需结合人类专家的判断。这为AI工具在鞋履和服装设计领域的应用提供了重要参考，提示开发者需要在工具功能和人类创意之间找到最佳平衡点。

华人团队攻克编程难题，新基准能带来什么突破？ 每日更新的题目，如何高效备赛？

华人团队攻克编程难题，新基准能带来什么突破？每日更新的题目，如何高效备赛？