DeepSeek“极你太美”出错了？这波风波，用户如何看待？

2025-10-12 09:40:19 作者：Vali编辑部

DeepSeek V3.1的“极你太美”bug大秀让开发者们炸开了锅。从火山引擎到腾讯CodeBuddy，再到DeepSeek官方，这场“极”字入侵事件在开发者圈引发连锁反应。有程序员反馈调用API生成代码时，输出结果里突然蹦出“极”字，像在代码里插了根刺。

问题最早在火山引擎平台被发现，随后像多米诺骨牌一样蔓延。CodeBuddy平台更夸张，直接在代码里夹带“极”字广告，让开发者哭笑不得。有开发者表示，如果不仔细检查直接使用生成代码，轻则编译不通过，重则影响项目进度。

问题表现：代码中的“极”字入侵

开发者们发现，当调用DeepSeek V3.1模型进行代码生成时，输出结果里会随机出现“极”字。这种现象在多个平台反复出现，从火山引擎到CodeBuddy，甚至DeepSeek官方团队也未能幸免。有开发者举例说，代码里突然冒出“极长”、“极快”等词汇，像在代码里插了根刺。

影响范围：从开发者到平台全面受波及

这场“极”字入侵事件已经波及多个平台。火山引擎、chutes、腾讯CodeBuddy等平台都出现了类似问题。有开发者表示，CodeBuddy平台甚至在代码里夹带“极”字广告，让开发者哭笑不得。这种问题不仅影响代码质量，更可能造成项目进度延误。

问题根源：数据清洗不彻底导致模型污染

知乎网友黄哲威分析认为，这个问题的根源可能与数据清洗不彻底有关。他在测试早期的R1模型时就发现类似问题，模型在列举素数时会出现“极长”这样的异常输出。他认为，这与大模型在编程编题时可能出现的“恶性模式”有关。

模型行为：从“极长”到“极你太美”的演变

黄哲威指出，R1模型在处理复杂问题时，会使用RAG（检索增强生成）技术，但后续的RL+（强化学习）阶段，模型将“极”字当作了某种终止符或语言切换标记。这种模式在DeepSeek V3.1模型中被进一步放大，导致“极”字频繁出现。

技术解析：数据污染如何影响模型输出

在测试中发现，当模型陷入“thinking”循环无法跳出时，有千分之一的概率会突然蹦出“极”字，然后终止思考。这种现象在多个平台反复出现，说明模型在训练过程中可能被“极”字污染。有开发者表示，这种污染可能来自数据清洗不彻底，导致模型在生成代码时自动插入“极”字。

解决方案：提示词缓解法有效缓解问题

目前有开发者提出使用提示词缓解法解决这个问题。关键提示词是禁止出现“[空格][几个token][占位符/省略符号]”这样的符号序列模式。这种方法主要针对调用API的第三方平台，若在DeepSeek V3.1官方则不需要。有开发者表示，这种方法能有效减少“极”字出现的频率。

未来展望：等待官方新版本修复问题

目前问题的解决还依赖DeepSeek官方的新版本。有开发者表示，虽然完全解决需要等到官方修复，但目前已有网友提出多种缓解方法。随着模型迭代更新，这个问题有望得到彻底解决。

这场“极”字入侵事件不仅暴露了模型训练中的数据问题，也反映出大模型在实际应用中可能遇到的挑战。对于需要高精度输出的开发者来说，这种小问题可能造成不小的影响。随着技术不断进步，相信这类问题会逐步得到解决。