英伟达的新架构,能带来多大提升?20万亿Token训练,算力够不够用?
英伟达9B模型真能实现6倍推理速度?
Mamba与Transformer混搭,谁才是性能王者?
最近在AI圈里掀起波澜的Nemotron Nano 2模型,让不少同行大跌眼镜。这个9B参数的模型不仅对标Qwen3-8B,还用混合架构实现了6倍吞吐量提升。更让人意外的是,英伟达居然把这款模型作为自家开源工具的"亲儿子",在HuggingFace平台直接开放了128K上下文长度的完整模型。
从技术角度看,这款模型的诞生绝非偶然。在AI推理领域,传统Transformer架构虽然效果出色,但面对长序列时存在明显瓶颈。而Mamba架构的加入,让模型在处理复杂任务时展现出独特优势。这种混合架构的创新,让英伟达在性能和精度之间找到了平衡点。
速度的奥秘Mamba-2架构加持!
要理解Nemotron-Nano-9B-v2的性能突破,得先了解其核心架构。这款模型采用了Nemotron-H架构,用闪电般的Mamba-2层替代了传统Transformer中的大量自注意力层。这种设计让模型在处理长篇推理任务时,速度提升了好几个档次。
相比传统Transformer架构,Mamba架构的优势显而易见。它通过选择性机制动态调整参数,专注于保留关键信息。这种特性在处理超长序列时,推理速度比Transformer快3-5倍,且复杂度呈线性增长,支持百万级token的上下文处理。
简单介绍下Mamba架构
Transformer架构虽然强大,但并非没有替代者。近年来,研究者们探索出多种新架构,其中Mamba架构备受关注。这种基于结构化状态空间模型(SSMs)的架构,通过选择性机制实现高效序列建模。
在AI领域,各种新架构层出不穷。Meta的JEPA和大概念模型、谷歌的扩散语言模型、OpenAI的GPT-8计划,都在探索新的架构可能性。而Mamba的出现,为长序列建模提供了全新思路。
为什么要混合Mamba与Transformer?
Transformer架构虽然效果出众,但在处理长序列时存在明显短板。自注意力机制导致的O(n²)计算复杂度,让模型在处理百万级token时面临内存压力。而Mamba架构在长上下文中表现出色,但对"记忆复制"和"上下文学习"等任务稍显不足。
这种混合架构的设计,正是为了解决传统架构的局限。通过结合Mamba和Transformer的优势,让模型在保持高效推理速度的同时,也能处理复杂的上下文任务。
从120亿到90亿的极限淬炼
Nemotron-Nano-v2的训练过程堪称"炼金术"。首先在20万亿token数据集上进行预训练,构建出120亿参数的基础模型。这个阶段采用FP8训练方案,确保模型在保持精度的同时提升效率。
接下来的压缩与蒸馏阶段,运用了SFT、DPO、GRPO、RLHF等多阶段对齐方法,提升模型的推理、对话和工具调用能力。通过Minitron策略进行极限压缩,最终将120亿参数模型压缩到9B参数,实现单张A10GGPU即可支持128K上下文。
性能碾压,精度与速度全都要!
实际测试结果令人振奋。在数学(GSM8K、MATH)、代码(HumanEval+、MBPP+)、通用推理(MMLU-Pro)、长上下文(RULER128k)等基准测试中,Nemotron-Nano-9B-v2表现优于或持平同类开源模型。
特别是在8k输入/16k输出场景下,吞吐量提升达到6.3倍。这种性能突破,让这款模型在复杂推理任务中展现出独特优势。
全面开源
英伟达不仅开放了模型,还同步发布了预训练数据集。Nemotron-Pre-Training-Dataset-v1包含6.6万亿个高质量token,涵盖网页爬取、数学、代码、SFT和多语言问答数据。
这个数据集分为四个类别:Nemotron-CC-v2包含15种语言的多语言问答对;Nemotron-CC-Math-v1专注数学领域;Nemotron-Pretraining-Code-v1精选GitHub代码;Nemotron-Pretraining-SFT-v1覆盖STEM、学术、推理等多领域。
这些数据的公开,为研究者提供了丰富的训练资源。特别是Nemotron-Pretraining-Code-v1,经过多阶段筛选,确保数据质量。这种开放态度,让AI研究者能更便捷地进行实验。
最后是感慨下,Meta作为开源旗帜,如今也开始转向闭源策略。相比之下,国内模型在开源领域仍保持活跃。虽然OpenAI也开源了两个模型,但进展相对缓慢。英伟达虽然以"卖铲子"闻名,但这次静悄悄的开源动作,展示了其在AI领域的布局。
感兴趣的朋友可以前往Valimart网站体验。这个平台汇集了大量开源模型,包括英伟达自家的模型。通过这个平台,用户能轻松找到适合自己的AI工具。
模型体验网址:
https://www.valimart.net/