RL技术进阶,能帮LLM工作更高效吗?微软高管亲自授课,有什么干货值得关注?
### 强化学习在大语言模型中的应用总结
#### 1. **监督学习 vs. 强化学习**
- **监督学习**:通过固定标签(如人类标注)直接优化模型性能,适合静态任务。
- **强化学习(RL)**:通过动态环境反馈(如用户交互)调整策略,强调**自我学习与改进**,适合复杂、动态的任务(如对话生成)。
#### 2. **单步强化学习(On-policy)**
- **核心目标**:最大化单次交互的**期望回报** $ R = \mathbb{E}[r(a, o)] $,其中 $ r $ 为奖励函数,$ a $ 为动作(模型输出),$ o $ 为观测(输入提示)。
- **策略梯度(Policy Gradient)**:直接优化策略参数 $ \theta $,通过梯度上升更新模型,公式为:
$$
\nabla_\theta J(\theta) = \mathbb{E}\left[ \nabla_\theta \log \pi_\theta(a|o) \cdot R \right]
$$
- **适用场景**:生成样本成本低(如LLM微调),适合**单步任务**(如直接回答问题)。
#### 3. **策略优化技巧**
- **基线减法(Baseline Subtraction)**:
从奖励中减去均值($ r - \mathbb{E}[r] $),降低梯度方差,提升训练稳定性。
- **KL散度(Kullback-Leibler Divergence)**:
在损失函数中引入KL散度项,约束新策略 $ \pi_\theta $ 与监督微调(SFT)策略 $ \pi_{\text{SFT}} $ 的差异,保持策略连续性:
$$
D_{\text{KL}}(\pi_{\text{SFT}} \parallel \pi_\theta) = \sum_a \pi_{\text{SFT}}(a|o) \log \frac{\pi_{\text{SFT}}(a|o)}{\pi_\theta(a|o)}
$$
#### 4. **Off-policy学习与重要性采样**
- **重要性采样(Importance Sampling, IS)**:
处理旧策略 $ \pi_{\text{old}} $ 与新策略 $ \pi_\theta $ 的样本偏差,通过权重 $ w(\theta) = \frac{\pi_\theta(a|o)}{\pi_{\text{old}}(a|o)} $ 校正梯度。
- **PPO(Proximal Policy Optimization)**:
通过**裁剪重要性权重**(如限制 $ w(\theta) \in [1-\epsilon, 1+\epsilon] $)减少方差,避免策略剧烈波动,公式为:
$$
\text{PPO目标} = \mathbb{E} \left[ \min\left( w(\theta) r, \text{clip}(w(\theta), 1-\epsilon, 1+\epsilon) r \right) \right]
$$
#### 5. **DeepSeek-R1(GRPO)方法**
- **核心思想**:结合**重要性采样、基线减法、KL散度约束**,优化策略连续性与稳定性。
- **训练流程**:
1. 从旧策略 $ \pi_{\text{old}} $ 采样动作 $ a^i $,计算重要性权重。
2. 通过蒙特卡罗近似更新梯度,公式为:
$$
\hat{R}_i = r(a^i, o^i) - \bar{r} + \frac{1}{\sigma} \sum_{j=1}^N \log \pi_\theta(a^i|o^i)
$$
3. 使用多动作采样(公共随机数)减少方差。
#### 6. **多步强化学习(未来方向)**
- **目标**:扩展单步RL到多步任务(如工具调用、长对话),需解决**时间步连续性**、**动作观测空间复杂性**等问题。
- **应用案例**:DeepSeek-R1(单步)与TTRL(测试时强化学习)结合,实现更复杂的推理任务。
#### 7. **挑战与基础设施**
- **数据与计算成本**:高维空间(如文本)导致重要性权重不稳定,需依赖蒙特卡罗近似和缓冲区(如回放记忆)。
- **实际应用**:需平衡训练效率与策略稳定性,适合LLM的微调与增强。
---
### 关键术语速查
| 术语 | 含义 |
|------|------|
| 策略梯度 | 直接优化策略参数的RL方法 |
| 基线减法 | 通过奖励均值降低方差 |
| KL散度 | 测量策略分布差异 |
| PPO | 通过裁剪权重稳定训练 |
| GRPO | DeepSeek-R1的策略优化方法 |
---
### 参考链接
- [Valimart.net](https://www.valimart.net/)(多次出现,可能为补充资料链接)