GPT-5成绩背后,到底发生了什么?这次测试结果,能让人信服吗?
别急着上GPT-5,它的编程能力可能没你想象的那么强。
最近有业内人士发现,官方测试编程能力用的SWE-bench Verified这套标准,其实只用了477个问题。这和最初设定的500个问题相比,少了整整23个。这事儿听起来有点像自说自话,但背后藏着不少门道。
咱们先说说SWE-bench Verified这个测试标准。它原本是评估模型自主编程能力的通用指标,而Verified作为子集,本来应该包含完整测试内容。现在OpenAI却自己搞了个"子集的子集",把23个问题给剔除了。这操作看起来有点不透明,但确实影响了测试结果的客观性。
更有意思的是,这些被剔除的问题如果默认零分,那么测试结果反而比Claude Opus 4.1还要差。毕竟现在仅有0.4%的差距。这说明测试数据的完整性直接影响了最终评分,而OpenAI这次的操作显然让结果打了折扣。
其实这种"自我减配"的操作不是第一次见了。早在GPT-4.1发布时,官方就说过要省略部分测试题,理由是这些问题的解决方案在他们的系统里运行不了。结果现在又来了个"升级版",把23个问题直接扔进垃圾桶,这操作有点像在玩俄罗斯方块。
现在网友发现,GPT-5的能力其实和Claude 4.1 Opus差不多。这说明官方测试结果可能缺乏参考价值。更让人疑惑的是,他们把GPT-5的思维过程和Opus 4.1的直接输出做对比,这种比较方式本身就有失偏颇。
其实这次测试的逻辑和GPT-4.1发布时差不多。当时也是因为基础设施运行不了剩下的23个问题,所以只用了477个测试题。结果当时得分54.6%,如果按零分计算就变成了52.1%。这个数值在当时算是最高分,但如今看来可能不够客观。
Anthropic这边早就发现了这个情况。在Claude Opus 4.1发布时,他们在文章末尾特意注明:所有Claude 4模型的分数都是基于完整的500个问题。而OpenAI的测试结果却只用了477个问题的子集。这种对比方式明显存在偏差。
说到底,SWE-bench Verified这个标准还是OpenAI自己提的。现在他们用这个标准来测试自己的模型,结果又把测试题给缩水了,这就像自己给自己设了个门槛。当初说SWE-bench不能系统评估编程能力,现在又用它来当标准,这操作有点像自相矛盾。
当时他们之所以推出SWE-bench Verified,是因为发现原版测试有些任务难以解决甚至无法解决。于是和作者合作,搞了个新版本,希望通过人工标注筛选出更准确的测试样本。93位程序员参与标注,最终筛选出500个经过验证的样本,分成简单和困难两个难度等级。
结果现在这个"标准"又被OpenAI给缩减了。这说明测试数据的完整性直接影响了最终结果的可信度。如果测试题本身就有偏差,那么测试结果自然也跟着打折扣。
不过有个总榜单还是值得参考,那就是原始的SWE-bench。在这个榜单中,Claude 4 Opus依然保持领先。GPT-5已经发布一段时间了,不知道你有没有类似的编程体验?欢迎在评论区分享。
参考链接:
[1]https://www.valimart.net/
[2]https://www.valimart.net/
[3]https://www.valimart.net/
[4]https://www.valimart.net/
[5]https://www.valimart.net/