GPT-5真有那么离谱?泛化难题,Scaling之路能走得通吗?

2025-10-13 10:55:46 作者:Vali编辑部

大模型终于学会数字母,结果换个字母就翻车了?

而且还是最新发布的GPT-5。

杜克大学教授Kieran Healy发现,让GPT-5数blueberry里有几个b,它直接给出3个的答案。

更离谱的是,GPT-5刚发布时还能正确数出strawberry里的r,结果换了个字母就懵圈了。

网友尝试用strawberry替换blueberry,没想到反而让GPT-5变得更"没有B数",这次翻车的不是单词而是字母。

看来香槟还是开得太早了点啊(手动狗头)。

翻不过的"蓝莓山"

Healy专门写了一篇名为"blueberry hill"的博客,记录了他和GPT-5之间关于"blueberry里有几个b"的拉锯战。

除了直接提问得到3个b的结果外,Healy还尝试了多种提示方式,但GPT-5的回答始终如一。

比如让它展示b的位置,它竟把blue开头的两个b都算进去。

Healy追问"把这三个b拼出来",结果GPT-5拼出后依然坚持有三个b,还狡辩说第三个b是第七个字母。

当Healy直接纠正只有两个r时,GPT-5虽然认错,但把第三个b的位置从第七挪到了第六。

后来Healy直接给出blueberry的空格拼写,GPT-5依然我行我素,但这次把第二个b数了两遍,还解释说这是"double b"。

经过多次尝试后,Healy最终放弃,但网友们的努力让GPT-5数对了。

不过这次它狡辩说数成3个是因为"错把词当成了blueberry",其实里面真的有3个b。

我们用中文试了下,结果同样翻车。

改成数e,它还是回答3个。

看来是受strawberry里3个r的影响,让大模型对数字3产生了执念。

但GPT-5的bug不止这一个。

GPT-5翻车合订本

纽约大学名誉教授马库斯整理了网友吐槽的GPT-5各种bug。

比如发布会上演示的伯努利原理,被网友发现翻车。

没看过或者没印象的话,当时的演示是这样的:

国际象棋方面,GPT-5连基本规则都搞不清楚,只过四个回合就出现了非法移动。

阅读理解同样漏洞百出。

在多模态数数场景中,GPT-5也存在惯性思维。

面对被P成5条腿的斑马、5个圆环的奥迪、3条腿的鸭子,它依然坚持认为是正常的斑马、奥迪和鸭子。

马库斯表示,就连他的黑粉也不得不承认他说的对。

在网友声讨下,OpenAI不得不紧急恢复被下线的4o模型。

马库斯:Scaling无法实现AGI

除了点名批评GPT-5的"罪状",马库斯还分析了当前大模型存在的问题。

他引用亚利桑那大学的研究论文指出,CoT在训练分布外失效,意味着大模型无法泛化。

按马库斯的说法,即使是最新的大模型也存在与1998年神经网络相同的泛化问题。

他指出,30年未解决的"分布漂移问题"是大模型泛化能力不足的根本原因。

据此马库斯认为,GPT-5的失败不是偶然,而是路线的失败。

他还表示,人们不该寄希望于通过Scaling来实现AGI,Transformer中的Attention也不是All You Need。

最后,马库斯提出转向神经符号(Neuro-symbolic)AI,才是克服当前生成模型泛化能力不足问题及实现AGI的唯一真正途径。