AI写作工具,真能写出“人味儿”?它如何改变你的创作流程?

2025-10-15 08:00:36 作者:Vali编辑部
**Writing-Zero:AI创意写作的奖励机制革新** **1. 背景与动机** 传统奖励建模(如Scalar RM)在创意写作任务中存在**Reward Hacking**问题,例如过度解释、谄媚、文本长度无限制增长。Writing-Zero通过引入**成对生成式奖励建模(GenRM)**和**Bootstraped Relative Policy Optimization(BRPO)**,解决这些问题,提升AI在创意写作中的表现。 **2. 核心技术** - **GenRM(成对生成式奖励建模)** - **成对比较**:通过输入两个响应(Response_1和Response_2),利用Self-Principled Critique生成评分,判断偏好关系。 - **奖励组成**: - **Score Reward**:根据偏好(Chosen > Rejected = +1,Chosen < Rejected = -1,相等 = 0)。 - **Format Reward**:格式是否符合要求。 - **Score Margin**:惩罚打分相近的结果,增强细粒度区分。 - **Position Bias**:消除位置偏差,降低偏好比例的方差。 - **动态采样**:过滤得分全为0或全为1的Prompt,提升训练稳定性。 - **BRPO(Bootstraped Relative Policy Optimization)** - **相对比较**:通过Policy自举(Bootstrap)随机采样Reference,进行相对(Relative)比较,无需依赖绝对标准答案(Ground-Truth)。 - **Advantage算法优化**:直接使用Reward作为Advantage,无需减去均值或除以标准差,通过随机采样保证分布稳定性。 - **过滤机制**:动态过滤Group中打分过高或过低的Prompt,避免模型对Reference的OOD(Out-of-Distribution)行为。 **3. 实验结果与优势** - **稳定性**:GenRM训练稳定,达到SFT + RL效果,而Scalar RM训练不稳定,早期出现Hacking问题。 - **测试集表现**:在内部文创测试集(Writing Testset)和开源测试集上胜出,人工评估一致性高。 - **抗Hacking能力**:GenRM对过度解释、谄媚等Hacking现象更具抗性。 - **Test-Time Scaling**:具备测试时间扩展能力,通过动态采样和多次投票提升效果。 **4. 应用与意义** - **统一奖励建模范式**:为三种主要奖励建模方法(Rule-Based Rewards、Model-Based Rewards、Creative Tasks)提供统一框架,适用于从高度可验证到完全不可验证的语言任务谱系。 - **提升AI创作能力**:推动AI从“会写”到“写得好”,成为人类创意的得力助手。 **5. 未来方向** - **对抗训练**:引入GenRM与Writing Model的对抗训练,进一步提升模型效果。 - **多模型流水线训练**:魔改Verl,支持多模型Pipeline训练+Rollout,复用同一GPU Group资源。 - **资源优化**:减少GPU卡数依赖,提升训练效率。 **6. 案例验证** 通过对比以下案例,GenRM训练的模型更具人性化和文艺气息: - 为15年陪伴的猫咪设计告别卡片文字 - 在西班牙台阶拍摄打卡照配文,含蓄致敬《罗马假日》 - 用食物隐喻安慰失恋朋友 **总结** Writing-Zero通过创新的奖励机制(GenRM + BRPO),有效解决了传统方法在创意写作中的局限性,为AI创作能力的提升提供了新范式,标志着AI从“会写”迈向“写得好”的关键一步。