DeepSeek V3.1出现“极”字问题,是模型出了岔子吗?这次模型故障,究竟是怎么回事?
这个AI模型最近在汉字世界里闹出了不小的动静,原因竟然是它对一个字情有独钟。DeepSeek最新发布的V3.1模型上线才一周,就因为一个离奇的bug让社区炸开了锅:不管是写代码还是整理试卷,模型总是莫名其妙地在文本里插入“极”字,甚至在自我修复时也甩不掉这个“尾巴”。这事儿闹得,连论坛里都开始流传起“极”字的传说。
事情要从上周三说起,DeepSeek开源了新版本的基础模型,但不是期待已久的V4,而是V3.1-Base。更早的时候,V3.1已经上线了网页、App和小程序。经过一周多的真实用户测试,这个版本却让人哭笑不得:某些输出的token会被随机替换成“极”字,这让不少用户直呼“这AI是来玩文字游戏的”。更尴尬的是,连官方API修复时也难逃这个“极”字的魔爪。
用户Fun10165在知乎上分享了她的经历,她说自己用火山引擎版DeepSeek V3.1整理物理试卷时,发现模型输出里莫名出现一堆“极”字。这事儿在Trae测试中也复现了,甚至在调用官方API修复时,问题依然存在。她表示:“官方网页和API都能复现,概率不高,但多试几次就能出来。VolcEngine API复现概率特别高。”
这事儿在社区引发热议,不少用户纷纷分享类似遭遇。知乎用户“去码头整点薯条”表示自己用R1版本也遇到过类似问题,甚至在代码里插入“极客园”这个词,怀疑是数据污染。另一位用户“琪洛”则发现V3-0324版本输出的是“极速赛车开奖直播”,她猜测可能是训练数据没清理干净,导致“极”字残留。
Reddit上也热闹非凡,用户u/notdba测试发现,DeepSeek V3.1会在一些意料之外的位置输出“极”字。他列举了三个token:“extreme”(id:15075)、“极”(id:2577)、“極”(id:16411),并指出这三个词都是同一个意思。他说:“我已经测试过所有流行模型,这是第一次遇到这种情况。”
用户u/nekofneko则分享了另一个案例,他怀疑“极”字和省略号“...”的token(id:2576)被模型混淆了。还有用户发现DeepSeek-V3.1存在多语言混用的问题,比如从中文翻译成俄语时,会混入英文和中文词,有时占文本5%,有时只占1%。
关于这个问题的根源,网友普遍认为是“数据污染”。阶跃星辰黄哲威表示:“我觉得是数据合成时没洗干净,引入了‘极长的数组’这种奇怪的东西,模型直接把这个字当终止符用了。”他还提到:“其实推理出bug,大概率都是数据问题,只是R1的其他bug没这么高频,社区不太关注。”
这次事件给AI模型开发者敲响了警钟:追求高性能的同时,基础的数据质量才是决定AI行为的关键。我们把相关事件发给了DeepSeek团队,询问他们对这个问题的看法。
DeepSeek团队表示,这个“极”字问题确实存在,但具体原因还在进一步分析中。他们提到,这种现象可能与训练数据中的特殊标记有关,特别是在多语言混合和代码生成场景下更容易出现。
从用户反馈来看,问题主要集中在第三方部署的模型上,而官方API由于支持MTP(多token预测),问题相对较少。这说明数据预处理和模型架构对结果有直接影响。
有用户发现,问题不仅限于“极”字,还会出现“极速”等变体,这进一步佐证了数据污染的可能性。这种现象在AI模型中并不罕见,但像DeepSeek这样大规模出现,还是引起了不少关注。
对于普通用户来说,这个问题虽然不影响基本功能,但确实让体验打了个折扣。特别是需要精确输出的场景,比如代码生成或试卷整理,一个“极”字可能就是个大问题。
目前,DeepSeek团队正在优化数据预处理流程,试图从源头上解决这个问题。他们表示,后续版本会加强数据清洗,减少类似问题的发生概率。对于用户来说,耐心等待新版本也是不错的选择。
这次事件也提醒我们,AI模型的稳定性不仅取决于算法,更离不开数据质量。一个小小的“极”字,背后可能藏着整个训练数据的隐患。这或许就是AI世界里最有趣的现象之一——一个字,能掀起一场风波。