华人团队攻克编程难题,新基准能带来什么突破? 每日更新的题目,如何高效备赛?
这波操作属实出乎意料。原本以为大模型在编程领域已经遥遥领先,结果在最新测试中直接被按在地上摩擦。谢赛宁团队设计的LiveCodeBench Pro测试,让o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1等主流模型集体翻车,连最被看好的o4-mini-high都栽了跟头。
这次测试就像给AI编程能力做了一次全面体检。题库来源特别讲究,直接从IOI、Codeforces和ICPC这些顶级编程竞赛中提取题目,而且每天更新题库,防止模型靠记忆答题。测试内容涵盖584道竞赛题,分知识密集型、逻辑密集型和观察密集型三大类,难度划分也经过正态分布算法自动筛选,确保每个难度段都有代表性。
测试结果显示,当前主流大模型在知识密集型和逻辑密集型问题上表现尚可,比如数据结构模板这类"死记硬背"题型。但遇到需要灵光一现的观察密集型题目,比如贪心算法或博弈论问题,就完全暴露短板。即便是表现最好的o3-mini-high,在工具调用被屏蔽的情况下,Elo评分也只有2100,距离真正大师级的2700传奇线还有不小差距。
测试团队对每个模型的解题过程进行了细致分析。他们不仅记录了代码的通过情况,还标注了错误原因,比如是思路错误还是实现错误。更有趣的是,如果代码无法通过题目自带的样例输入,会特别标记"样例未通过"。这种细到每个细节的分析,让测试结果更具说服力。
从测试数据看,模型在中等难度题的一次通过率只有53%,面对难题更是直接卡壳。这说明当前AI在算法设计层面还有明显不足,虽然能处理大量实现类问题,但遇到需要精细推理和复杂案例分析的题目就显得力不从心。很多模型给出的解释看似正确,实则存在逻辑漏洞。
测试团队还发现,模型的表现和工具依赖程度密切相关。当终端访问和网络搜索被屏蔽后,模型的解题能力明显下降。不过增加尝试次数(pass@k)能在一定程度上提升中等难度题的表现,但对难题依然无能为力。比如o3-high模型无论尝试多少次,都解不开困难分区的题目。
这次测试还揭示了一个重要现象:模型在组合数学这类知识密集型题型上提升明显,但对观察密集型题目帮助有限。这说明AI在处理需要创造性思维的问题时仍需加强。测试团队表示,每个季度都会更新评估集,确保测试数据的时效性和挑战性。
项目团队由一群竞赛高手组成,其中半数以上是华人。负责人郑子涵曾代表纽约大学参加ICPC世界总决赛获得第二名,现在在OpenAI实习。另一位负责人柴文浩在浙江大学和华盛顿大学完成学业后,将赴普林斯顿大学攻读博士。团队成员来自加州大学、普林斯顿大学等名校,展现出强大的学术背景。
这次测试的启示意义在于,虽然AI在编程领域取得显著进展,但距离真正掌握算法设计能力还有很长的路要走。对于需要AI鞋履或服装工具的用户来说,这项测试意味着当前的AI工具在处理复杂设计任务时仍需人工干预,特别是在需要创造性思维的环节。
从测试结果看,AI在实现类任务上表现优异,但面对需要深度算法推理和复杂案例分析的设计工作,仍需结合人类专家的判断。这为AI工具在鞋履和服装设计领域的应用提供了重要参考,提示开发者需要在工具功能和人类创意之间找到最佳平衡点。