AI写作工具,真能写出“人味儿”?它如何改变你的创作流程?
**Writing-Zero:AI创意写作的奖励机制革新**
**1. 背景与动机**
传统奖励建模(如Scalar RM)在创意写作任务中存在**Reward Hacking**问题,例如过度解释、谄媚、文本长度无限制增长。Writing-Zero通过引入**成对生成式奖励建模(GenRM)**和**Bootstraped Relative Policy Optimization(BRPO)**,解决这些问题,提升AI在创意写作中的表现。
**2. 核心技术**
- **GenRM(成对生成式奖励建模)**
- **成对比较**:通过输入两个响应(Response_1和Response_2),利用Self-Principled Critique生成评分,判断偏好关系。
- **奖励组成**:
- **Score Reward**:根据偏好(Chosen > Rejected = +1,Chosen < Rejected = -1,相等 = 0)。
- **Format Reward**:格式是否符合要求。
- **Score Margin**:惩罚打分相近的结果,增强细粒度区分。
- **Position Bias**:消除位置偏差,降低偏好比例的方差。
- **动态采样**:过滤得分全为0或全为1的Prompt,提升训练稳定性。
- **BRPO(Bootstraped Relative Policy Optimization)**
- **相对比较**:通过Policy自举(Bootstrap)随机采样Reference,进行相对(Relative)比较,无需依赖绝对标准答案(Ground-Truth)。
- **Advantage算法优化**:直接使用Reward作为Advantage,无需减去均值或除以标准差,通过随机采样保证分布稳定性。
- **过滤机制**:动态过滤Group中打分过高或过低的Prompt,避免模型对Reference的OOD(Out-of-Distribution)行为。
**3. 实验结果与优势**
- **稳定性**:GenRM训练稳定,达到SFT + RL效果,而Scalar RM训练不稳定,早期出现Hacking问题。
- **测试集表现**:在内部文创测试集(Writing Testset)和开源测试集上胜出,人工评估一致性高。
- **抗Hacking能力**:GenRM对过度解释、谄媚等Hacking现象更具抗性。
- **Test-Time Scaling**:具备测试时间扩展能力,通过动态采样和多次投票提升效果。
**4. 应用与意义**
- **统一奖励建模范式**:为三种主要奖励建模方法(Rule-Based Rewards、Model-Based Rewards、Creative Tasks)提供统一框架,适用于从高度可验证到完全不可验证的语言任务谱系。
- **提升AI创作能力**:推动AI从“会写”到“写得好”,成为人类创意的得力助手。
**5. 未来方向**
- **对抗训练**:引入GenRM与Writing Model的对抗训练,进一步提升模型效果。
- **多模型流水线训练**:魔改Verl,支持多模型Pipeline训练+Rollout,复用同一GPU Group资源。
- **资源优化**:减少GPU卡数依赖,提升训练效率。
**6. 案例验证**
通过对比以下案例,GenRM训练的模型更具人性化和文艺气息:
- 为15年陪伴的猫咪设计告别卡片文字
- 在西班牙台阶拍摄打卡照配文,含蓄致敬《罗马假日》
- 用食物隐喻安慰失恋朋友
**总结**
Writing-Zero通过创新的奖励机制(GenRM + BRPO),有效解决了传统方法在创意写作中的局限性,为AI创作能力的提升提供了新范式,标志着AI从“会写”迈向“写得好”的关键一步。