LeCun的推荐是真是假?ETH苏黎世的辟谣意味什么?

2025-10-11 08:40:36 作者:Vali编辑部

AI推理模型哪家强?K2-Think真有那么神?

AI推理模型哪家强?K2-Think真有那么神?

上周,福布斯、Wired等媒体争相报道「全球最快开源推理模型」K2-Think,连图灵奖得主Yann LeCun都转发推文。但仅三天后,ETH五位研究员的博客却亮出底牌:87道数学题竟藏在训练集中!这不仅是技术突破,更是行业诚信的警钟。

这波操作堪称AI圈的「田忌赛马」。K2-Think以32B参数的规模,号称能比肩OpenAI的o3 high,直接颠覆Scaling Law理论。论文中作者把六个技术诀窍组合在一起:长思维链微调、可验证奖励强化学习、推理前规划、测试时扩展、投机解码和硬件优化。其中「先计划再思考」的架构不仅让模型更聪明,还实实在在把token消耗降低了12%。

数据方面,据称仅使用开源数据集,无专有训练数据、无封闭API。速度方面,它能在Cerebras上跑到每秒2000个token,而大部分推理模型每秒只有200个token。复杂的证明,过去要等3分钟,现在只要18秒。基准跑分更是逆天,在AIME 2024测试中得分率高达90.83%,比多数前沿模型高出5个百分点。

但好景不长,3天后ETH研究员的博客像一盆冷水。他们指出K2-Think存在数据污染问题:训练集和评估集重叠达87题,相当于用自己出的题考试。更夸张的是,评估中使用的样本有22%出现在训练数据里,这直接导致数学和代码方面的评估结果大打折扣。

ETH团队发现K2-Think的评估方式存在明显偏倚。论文主要结果表用的是「3选1」策略,而其他模型都是「单次生成」。更让人意外的是,这个「3选1」的判断是由一个未指明的外部模型完成的,该模型的规模可能是任意的。这套流程本就可以轻松应用于其他模型,但K2-Think却声称自己「仅依赖一个32B小模型」。

更值得玩味的是,K2-Think对竞品模型使用了过时版本。比如他们评估的GPT-OSS是8月份发布的,但论文中使用的Qwen3模型似乎不是7月份发布的最新版本。在三个基准测试中,K2-Think给出的Qwen3分数比7月新版本低了15-20%。这说明他们刻意压低了竞品的分数。

ETH团队还发现K2-Think使用「微观平均值」计算总体数学评分,这意味着OmniMath-Hard这个占总分66%的基准严重主导了最终分数。而OmniMath-Hard正是存在数据污染问题的基准。这种加权方式让K2-Think的分数看起来更耀眼。

为验证分析,ETH团队在自有的MathArena基准上进行了公平比较。他们遵循K2-Think推荐的超参数(temperature=1, p=0.95,输出64,000个token)。结果显示,尽管K2-Think性能不错,但其表现远未达到论文和媒体文章所声称的水平。特别是在数学能力方面,它甚至不及规模更小的GPT-OSS 20B模型。

这场「AI推理模型大战」暴露了行业普遍存在的问题:为了刷新SOTA,出现了类似「田忌赛马」的测评策略。开源模型要拿好成绩是好事,但存在缺陷的评估和夸大其词的宣传对行业毫无益处。K2-Think的案例提醒我们,AI发展不能只看分数,更要关注评估体系的公正性。