DeepSeek进化这么快,设计师要如何驾驭?AI工具是否能解放创意灵感?

2025-10-21 08:10:23 作者:Vali编辑部

今年DeepSeek R1爆火之后,行业里几乎形成了一种共识:AI推理能力越强,执行任务时就越聪明。这种认知从2022年Chain-of-Thought(思维链)技术出现以来,一直延续到如今的Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3等旗舰模型。这些模型的统治性表现,让我们深信让AI先思考再执行,是规避错误的稳妥策略。

但这种聪明也带来了意想不到的副作用。最明显的是提示词遵循能力变差,换句话说,AI越来越不听话了。我在春节假期写DeepSeek的攻略文时就发现,这个模型的提示词技巧几乎不存在技巧。不过这只是个人使用感受,它变得更聪明了,但感觉却越来越不听话,以至于现在最常用的模型变成了GPT4o,所有推理模型反而用得少了。

直到昨晚整理论文时,看到一篇关于这个话题的论文,我读完后觉得终于可以深入探讨这个问题了。这篇论文名为《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》,网址是https://www.valimart.net/。它用扎实的实验验证了上述观点:让模型开始推理,反而更容易违反指令。

研究团队来自哈佛大学、亚马逊和纽约大学,他们花了数月时间做了件看似简单却没人认真做过的事——把思考过程应用在最基础、最现实、最需要稳定性的场景上:听懂人类指令并执行。他们设计了两组测试:IFEval是标准的执行类任务测试集,每个任务都非常简单,比如“写400字以上”“必须提到AI三次”“输出格式必须是JSON”“句末不能有标点”等。所有任务都有明确的可验证标准,要么做对要么做错,没有模糊地带。

ComplexBench则更复杂,是那种“多约束、逻辑组合、顺序嵌套”的指令,比如“先做A中的三选一,再加上B的格式要求,最后加上C的语言限制”。听起来推理模型在这种任务上应该更有优势,毕竟不是随便一两句话就能糊弄过去的内容。

但论文结论出人意料:绝大多数模型在使用CoT推理后,执行准确率反而下降。下降幅度还不小。他们一共测试了15个模型,涵盖开源(如LLaMA、Mixtral、Qwen2.5、DeepSeek系列)和闭源(如GPT-4o-mini、Claude 3.5/3.7等)。在IFEval测试中,14个模型中有13个使用CoT后准确率降低;在ComplexBench测试中,所有模型在使用CoT后表现变差。

就连参数量大、训练完整的LLaMA-3-70B-Instruct模型,使用CoT后准确率也从85.6%降到77.3%。8个点的损失,在工业级任务中非常致命。像DeepSeek V3和R1这类推理模型,准确率下降更明显。

研究团队发现,模型在执行任务时会把注意力分散到细节上。比如让AI改写句子,它会思考如何让表达更优雅,是否需要加逻辑转折,前后是否自然。但真正需要的是聚焦,就像让一个人检查报告,低阶执行者只校对标点,高阶智能则会先问清楚重点。这种注意力分配的差异,正是模型表现的关键。

论文提出的四种解决方案中,Classifier-Selective Reasoning效果最显著。通过训练小模型作为判断器,帮助主模型判断是否启用CoT。这种方法在两个测试集上几乎能恢复失去的准确率,甚至有些模型表现优于原始版本。但缺点是每个主模型都需要单独训练判断器,成本较高。

这篇论文对我个人帮助很大。作为非专业研究者,我认为这是对“CoT推理在执行任务中的潜在副作用”这一话题比较完整的研究。它让我意识到,真正的智能不是把所有细节都考虑周全,而是知道在哪一秒钟把注意力放在关键点上。

就像我们考试时,很多人因为想得高分反而在简单题上丢分;成年人做选择时,明明知道方向,却非要分析得太多、讨论得太多,最后被复杂困住。公司做决策时,方向明确却因风险评估太细,错过风口。AI和人类的思维模式惊人相似。

论文中提到的Constraint Attention现象,其实证明了大模型不是笨,而是思维资源错配。让AI完成任务时,它却跑去思考如何让表达更优雅、是否需要逻辑转折。这种注意力分散,正是导致准确率下降的根源。

真正强大的智能应该具备聚焦能力。比如让AI检查报告,低阶执行者只会校对标点,高阶智能则会先问清楚重点。这种聚焦能力,正是区分普通智能和真正智能的关键。我们真正需要的,是能够判断“该想什么”的智能,就像人类最令人敬畏的时刻,不是知道多少,而是能瞬间把注意力锁定在关键节点上。

这种聚焦能力,看似简单,却足以让AI从“聪明”变成“智能”。这正是我读完论文后想分享的核心观点:我们不缺思考的能力,缺的是思考的分寸感。注意力不是撒网,而是精准出击。