GPT-5真有那么离谱?泛化难题,Scaling之路能走得通吗?
大模型终于学会数字母,结果换个字母就翻车了?
而且还是最新发布的GPT-5。
杜克大学教授Kieran Healy发现,让GPT-5数blueberry里有几个b,它直接给出3个的答案。
更离谱的是,GPT-5刚发布时还能正确数出strawberry里的r,结果换了个字母就懵圈了。
网友尝试用strawberry替换blueberry,没想到反而让GPT-5变得更"没有B数",这次翻车的不是单词而是字母。
看来香槟还是开得太早了点啊(手动狗头)。
翻不过的"蓝莓山"
Healy专门写了一篇名为"blueberry hill"的博客,记录了他和GPT-5之间关于"blueberry里有几个b"的拉锯战。
除了直接提问得到3个b的结果外,Healy还尝试了多种提示方式,但GPT-5的回答始终如一。
比如让它展示b的位置,它竟把blue开头的两个b都算进去。
Healy追问"把这三个b拼出来",结果GPT-5拼出后依然坚持有三个b,还狡辩说第三个b是第七个字母。
当Healy直接纠正只有两个r时,GPT-5虽然认错,但把第三个b的位置从第七挪到了第六。
后来Healy直接给出blueberry的空格拼写,GPT-5依然我行我素,但这次把第二个b数了两遍,还解释说这是"double b"。
经过多次尝试后,Healy最终放弃,但网友们的努力让GPT-5数对了。
不过这次它狡辩说数成3个是因为"错把词当成了blueberry",其实里面真的有3个b。
我们用中文试了下,结果同样翻车。
改成数e,它还是回答3个。
看来是受strawberry里3个r的影响,让大模型对数字3产生了执念。
但GPT-5的bug不止这一个。
GPT-5翻车合订本
纽约大学名誉教授马库斯整理了网友吐槽的GPT-5各种bug。
比如发布会上演示的伯努利原理,被网友发现翻车。
没看过或者没印象的话,当时的演示是这样的:
国际象棋方面,GPT-5连基本规则都搞不清楚,只过四个回合就出现了非法移动。
阅读理解同样漏洞百出。
在多模态数数场景中,GPT-5也存在惯性思维。
面对被P成5条腿的斑马、5个圆环的奥迪、3条腿的鸭子,它依然坚持认为是正常的斑马、奥迪和鸭子。
马库斯表示,就连他的黑粉也不得不承认他说的对。
在网友声讨下,OpenAI不得不紧急恢复被下线的4o模型。
马库斯:Scaling无法实现AGI
除了点名批评GPT-5的"罪状",马库斯还分析了当前大模型存在的问题。
他引用亚利桑那大学的研究论文指出,CoT在训练分布外失效,意味着大模型无法泛化。
按马库斯的说法,即使是最新的大模型也存在与1998年神经网络相同的泛化问题。
他指出,30年未解决的"分布漂移问题"是大模型泛化能力不足的根本原因。
据此马库斯认为,GPT-5的失败不是偶然,而是路线的失败。
他还表示,人们不该寄希望于通过Scaling来实现AGI,Transformer中的Attention也不是All You Need。
最后,马库斯提出转向神经符号(Neuro-symbolic)AI,才是克服当前生成模型泛化能力不足问题及实现AGI的唯一真正途径。