AI训练出新招式?它真的能让AI独立思考吗?
在AI模型训练领域,字节团队最近推出了一项突破性技术,通过训练和推理的不对称设计,显著提升了模型性能。这项被称为PCL的新方法,让大语言模型在训练阶段具备自我反思能力,而在推理阶段却能保持极低的计算开销,这种创新设计在实际应用中展现出强大潜力。
传统语言模型训练存在明显局限,训练和推理必须完全对称。模型在训练时必须预测到结束符为止的内容,就像学生考试时要把所有思考过程都写在答卷上。而PCL方法首次打破了这种对称性,让模型在训练阶段学会自我评估,推理阶段却能快速输出答案,这种设计既提升了模型能力,又保持了推理效率。测试数据显示,这种方法在保持推理效率的同时,显著提升了模型的输出质量和自我评估能力。
下面通过实际对话案例,我们可以直观看到PCL方法的训练和推理效果。例如,对于如下问题:
小明手里有50块钱,巧克力7块钱一颗,小明买了5颗,还剩多少钱?
训练时,模型会完整输出以下内容,并通过多目标优化同时提升其推理、评估能力:
think: 小明买了五颗巧克力,一共花费5*7=35元;因此,小明还剩下50-35=15元。answer:15<post>evaluation: 让我重新检查一下我的回答过程。首先,我的两步计算过程:5*7=35,50-35=15都是准确的,因此我的最终答案应该是正确的,可以获得 accuracy reward。其次,我的输出也符合正确的格式,包含了 think + answer 两部分内容,因此也可以获得 format reward。reward: {accuracy reward:1, format reward:1}
推理时,模型以<post>作为新的结束符,只需要输出推理部分的内容:
think: 小明买了五颗巧克力,一共花费 5*7=35 元;因此,小明还剩下 50-35=15 元。 answer: 15
可以看到,模型在推理时完全不输出evaluation部分,从而无需任何额外的推理开销。而通过在训练时进行自我反思和评估,模型的实际能力也得到了提升,这一点在实验中得到了验证。
训练范式
传统语言模型训练存在一个根本性限制:训练和推理必须完全对称。现有方法通常以结束符(EOS)作为序列终止点,模型的学习目标也仅限于预测到结束符为止的内容,形成了“训练什么就输出什么”的对称约束。就像学生考试时必须把所有思考过程都写在答卷上,而人类在完成答题后往往会进行检查,反思和评估自己的回答质量,这种自我反思环节在大模型训练中却缺失了。
PCL方法首次打破了这种对称性约束,实现了训练的创新。其核心思路简单而巧妙:训练时将原始的EOS替换为临时结束符,让模型继续输出自我评估和质量预测;推理时模型在处直接停止,无需输出后续的评估部分。这样一来,模型在训练阶段学会了"内省"的能力,但部署时保持原有计算效率。实验结果表明,通过在训练时评估自己的答案,模型本身的回答能力也得到了提升。
PCL 方法示意图:(a) 传统方法以结束符作为训练的终点;(b) 方法在训练时,首先将其替换为临时结束符,然后在后面继续加入自我反思、自我评估的部分;(c) 在推理时,将临时结束符作为新的结束符,作为输出的终止,从而避免了额外的推理开销。
白盒化强化学习
为了有效利用这一点,研究团队提出了另一项创新:实现了强化学习过程的白盒化。这一点也是基于目前对强化学习的普遍认知:大模型依赖并被动接受外部的奖励信号,难以理解奖励函数的机制,其优化过程更像是一个黑盒,优化效果较差。
PCL的白盒化设计则截然不同:直接教会模型如何计算奖励,让模型主动进行自我评估,因此其训练过程完全透明可解释。利用模型自己输出的评估结果,与外部奖励函数的结果进行对齐,从而监督模型的评估能力。就像从"老师打分"变成了"学生自己会打分",模型不仅学会了做题,还学会了评分标准,知道应该从哪些角度去得分,从而实现更高效的优化。
白盒化强化学习的对话示意图,教会模型如何计算奖励,并设计一致性奖励函数用于对齐
统一混合训练框架
在具体实现上,PCL 实现了统一 SFT + RL 训练框架,进行多目标的联合优化。这种混合训练范式也在最近的不少工作中得到验证。
推理能力 SFT:使用推理数据集,专注于 think + answer 部分,训练模型回答问题的能力
评估能力 SFT:使用教师输出进行蒸馏,专注于 evaluation + reward 部分,让模型基于完整推理过程进行评估
推理能力 GRPO:使用 accuracy + format 奖励函数,验证答案与格式的正确性。奖励函数因任务而异,可以拓展到更多的场景
评估能力 GRPO:设计了一致性奖励函数,指导模型预测出准确的奖励得分
各优化目标在统一框架中混合训练,将监督微调(SFT)和强化学习优化(GRPO)完美融合,实现多目标协同优化。
实验结果
作者设置了多种实验,验证了PCL的各组成部分的效果:
对比 SFT, RL 等经典训练方法,对比混合训练策略
消融验证 PCL 中的评估 SFT、一致性奖励函数的效果
实验结果上,论文在数学推理、逻辑推理两个领域的数据集,分别在 Qwen-2.5 和 Llama-3.2 不同尺寸的模型上都取得了普遍正向的指标提升,消融实验也验证了方法并非完全依赖蒸馏或强化学习策略,而是有效利用了自我评估,提升了模型的内在推理能力。
结论
PCL方法的提出,为语言模型训练领域带来了三个重要启示:
EOS后空间的价值:被忽视的训练空间蕴含巨大潜力,自我评估能够提升推理能力
白盒化RL的可能:强化学习不必是"黑盒子",提升可解释性可以学得更好
不对称训练的新范式:这种不对称训练的新范式,既能显著提升训练效果,又无需额外推理开销,有望成为未来大模型训练的标准做法。
论文链接:https://www.valimart.net/