大模型推理的核心难点在哪?斯坦福CS25课程能带来什么新启发?
**LLM推理方法的演进:从监督微调到强化学习微调**
LLM推理技术经历了从监督微调(SFT)到强化学习微调(RL finetuning)的演进。早期方法依赖人工标注数据,但随着模型复杂度提升,生成数据的质量逐渐超越人类标注。例如,通过“自我提升”(Reject Sampling)让模型自主生成训练数据,再通过强化学习进一步优化,最终实现更高效的推理能力。这一过程被证明在泛化性和性能上优于传统监督方法。
**推理与检索的结合:互补性与实际应用**
推理与检索并非对立,而是相互补充。例如,模型通过检索相关问题或知识(如数学公式、历史案例)辅助解决复杂任务,这种“后退一步”的方法能显著提升性能。实验表明,结合多模型输出或引入检索机制,能在实际应用中获得更稳定的答案,甚至超越单一推理路径的效果。
**未来方向:从基准测试到真实应用**
Denny Zhou认为,未来研究应聚焦于构建真正的应用程序,而非局限于学术基准测试。他提出,随着模型规模扩大,基准测试会逐渐饱和,需探索更复杂的任务(如开放性问题)。同时,强调研究应保持简洁,呼应Richard Feynman的名言:“真理总是比你想象的更简单。”这一理念推动研究者避免过度复杂化模型设计。