小模型也能数学超神?这背后藏着怎样的训练秘密?
在AI大模型领域,数学推理能力一直是衡量模型实力的重要指标。近期出现的Polaris训练方案,为4B参数量的模型带来了突破性进展。这款由香港大学NLP团队与字节跳动Seed、复旦大学联合研发的强化学习框架,通过创新性的训练策略,成功让4B模型在AIME25测试中取得79.4分,AIME24测试中达到81.2分的成绩,超过众多商业大模型表现。这项成果不仅验证了轻量化模型的潜力,更为AI工具开发者提供了新的思路。
在实际应用中,Polaris方案展现出了独特优势。与传统训练方式相比,该框架通过优化数据分布和参数设置,让4B模型在消费级显卡上也能实现高性能推理。这种轻量化部署能力,为中小企业和个人开发者提供了更便捷的AI工具选择。特别是在数学推理等专业领域,Polaris方案展现出的性能提升,为AI在教育、科研等场景的应用打开了新窗口。
训练数据构造是Polaris方案的核心突破点。研究人员发现,不同能力的基模型对同一数据集的难度分布呈现出镜像特征。通过让R1-Distill-Qwen-1.5B/7B模型分别推理8次,统计正确率的方式,团队筛选出53K个具有代表性的样本作为初始训练数据。这种数据筛选方法,有效避免了简单题和难题在训练过程中占据过大的比重,为模型训练提供了更均衡的样本基础。
在强化学习训练过程中,Polaris引入了动态数据更新机制。随着模型对样本的掌握率提高,原本困难的问题会逐渐变得简单。为此,研究团队在每个训练阶段结束时,会删除准确率过高的样本,确保训练数据持续保持挑战性。这种动态调整策略,让模型在训练过程中始终保持适度的困难度,避免陷入性能瓶颈。
温度参数的设置是影响模型表现的关键因素。Polaris团队通过大量实验发现,不同模型在相同温度下的表现差异显著。以Qwen3系列为例,当采样温度设置为1.4时,模型在准确率和多样性之间取得了最佳平衡。这种温度参数的精细化调整,避免了传统设置方法(如0.6或1.0)带来的性能限制。
为保持训练过程中的多样性,Polaris采用了动态温度调整策略。在每个训练阶段开始前,团队会进行类似初始化的温度搜索,确保后续阶段的多样性分数与初始阶段保持一致。这种多阶段温度调整方法,让模型在训练后期依然能保持探索空间,避免因温度固定带来的性能下降。
针对长文本生成能力的提升,Polaris引入了长度外推技术。通过调整RoPE位置编码,模型能够在推理时处理超出训练时所见的更长序列。实验数据显示,这种外推方法将超过32K长度回答的准确率从26%提升至50%以上,显著改善了长上下文推理能力。这项技术突破,为需要处理长文档的AI应用提供了新的解决方案。
多阶段训练策略是Polaris方案的另一大创新。在早期阶段使用较短的上下文窗口,待模型表现收敛后逐步增加上下文长度。这种渐进式训练方式,让模型在不同阶段都能获得适当的挑战。实验表明,对于Qwen3-4B模型,从零开始使用40K响应长度时,性能提升更加稳定,相比分阶段调整方案展现出更优表现。
在实际测试中,Polaris方案展现出显著优势。在AIME24和AIME25测试中,4B模型的数学推理能力达到行业领先水平。这种性能突破,不仅验证了轻量化模型的潜力,更为AI工具开发者提供了更高效的解决方案。通过优化训练策略和参数设置,Polaris方案证明了4B模型在专业场景中的强大能力。
这项研究成果为AI工具开发带来了新思路。通过创新性的训练框架和参数设置,Polaris方案让4B模型在保持轻量化优势的同时,实现了与更高参数模型相当的推理能力。这种平衡性能与资源消耗的解决方案,为中小企业和个人开发者提供了更便捷的AI工具选择,也为AI在教育、科研等领域的应用打开了新窗口。