文本大模型开源，性能如何？资源成本能降多少？

2025-10-19 10:05:10 作者：Vali编辑部

小红书hi lab团队最近开源了dots.llm1模型，这是一款中等规模的文本大模型。这款模型的参数量达到1420亿，上下文长度支持32K，性能表现相当亮眼。作为一家专注AI技术的公司，hi lab这次开源的模型不仅参数量庞大，而且在训练数据和优化方法上都有独特设计，值得深入探讨。

从整体来看，dots.llm1的架构设计颇具创新。模型采用decoder-only的Transformer结构，每一层都包含注意力机制和前馈网络。与传统的密集型模型不同，hi lab将FFN模块替换为MoE结构，这种设计既保证了模型性能，又有效控制了训练成本。在具体实现上，团队还开发了轻量级网页清理模型，专门处理网页内容中的重复和杂乱信息，确保数据质量。

数据处理是模型训练的关键环节。hi lab采用三阶段方法处理预训练数据：首先是文档准备，接着是基于规则的处理，最后是基于模型的处理。这种分层处理方式有效提升了数据的多样性和质量。在具体操作中，团队还训练了一个包含200个类别的分类器，用来平衡数据中的不同内容比例。通过增加百科条目和科普文章的比例，模型在知识性和事实性任务上的表现明显提升。

训练优化方面，dots.llm1使用了AdamW优化器，并采用warmup-stable-decay的学习率计划。在训练过程中，团队逐步增加批量大小，并在后期进行两个退火阶段，这有助于模型更好地适应不同数据类型的训练需求。特别值得注意的是，hi lab采用UtK策略将训练文档切分为更小片段，通过打乱顺序训练模型重构相关片段。这种设计既提升了模型处理长文本的能力，又保持了在短上下文任务上的表现。

在训练框架方面，hi lab基于内部的Cybertron框架开发，这个框架建立在Megatron-Core之上。团队利用Megatron-Core构建了完整的训练工具链，针对预训练、监督式微调和强化学习等不同阶段封装了独立的训练器。这种模块化设计让训练过程更加高效，也方便后续的模型迭代优化。

在计算资源方面，dots.llm1展现出显著优势。相比Qwen2.5 72B模型，dots.llm1在训练每万亿token时所需的GPU小时数减少了约58%。整个预训练过程的GPU小时数也仅为Qwen2.5的四分之一，这说明模型在保持性能的同时大幅降低了训练成本。这种成本效益对大规模预训练场景来说具有重要价值。

后训练阶段，hi lab收集了约40万个指令调优实例，覆盖多语言对话、知识问答、复杂指令遵循等多个领域。微调过程分为两个阶段：首先是重采样和多轮对话拼接处理，进行两个epoch的微调；第二阶段通过拒绝采样微调进一步提升模型在数学和编程等领域的表现。这种分阶段训练策略让模型在不同任务上的表现更加均衡。

实际测评显示，dots.llm1在多个通用英文基准测试中表现稳定。在问答类任务中，其性能与Qwen2.5/Qwen3系列模型相当。中文任务方面，模型展现出明显优势，在CLUEWSC语义理解测试中得分92.6，达到行业领先水平；在C-Eval测试中取得92.2分，超越了包括DeepSeek-V3在内的多个模型。数学能力测试中，模型在MATH500数据集上得分84.8，超过Qwen2.5系列，接近当前最先进水平。

代码能力方面，dots.llm1与Qwen2.5系列表现相当，但在更先进的模型如Qwen3和DeepSeek-V3面前还有提升空间。这种表现说明模型在通用任务上已经具备较强竞争力，但在专业领域仍有优化余地。这种平衡性对于实际应用场景来说是一个重要优势。

hi lab团队在模型优化过程中还提出了一种基于1F1B的交错式通信和计算重叠方案，并与英伟达合作将其集成到Megatron-Core框架中。这种方案在内存消耗方面展现出显著优势，同时团队还优化了Grouped GEMM的实现，这些技术细节为模型的高效训练提供了重要支撑。

从整体来看，dots.llm1的开源为AI领域带来了新的可能性。这款模型在保持高性能的同时有效控制成本，这种平衡对实际应用来说非常关键。hi lab团队在模型设计、数据处理、训练优化等方面的创新，为后续大模型研发提供了有价值的参考。随着更多开发者参与，dots.llm1有望在更多场景中发挥作用，推动AI技术的进一步发展。