这项技术能助力鞋服设计吗?它对优化产品流程有何作用?

2025-10-12 10:00:35 作者:Vali编辑部

英伟达开源又放大招了!

韩松团队推出了一款全新的基于后神经架构搜索的高效语言模型——Jet-Nemotron。

该模型在一系列基准测试中,不仅表现出与Qwen3、Qwen2.5、Gemma 3和Llama 3.2相当甚至更优的准确率,还在生成吞吐量上实现最高53.6倍加速,在预填充阶段达到6.1倍加速。

值得一提的是,在MMLU、MMLU-Pro和BBH基准上,Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高了47倍,缓存大小缩小至1/47。

同时,它还实现了比DeepSeek-V3-Small和Moonlight(共150亿参数,22亿激活参数)更高的准确率。

代码和预训练模型都将开源,我们先来看看Jet-Nemotron是如何构建的。

Jet-Nemotron:基于后神经架构搜索构建

首先,Jet-Nemotron是在后神经架构搜索(Post Neural Architecture Search,PostNAS)的基础上构建的。

其中,后神经架构搜索(PostNAS)模型是一种“站在大模型肩膀上做改造”的架构搜索方法。

它从一个预训练的全注意力模型出发,并直接继承其多层感知机权重,且在整个过程中保持这些权重被冻结(不再更新)。

Jet-Nemotron就是将PostNAS通过以下4个步骤优化得到的:

全注意力层的放置和消除

在模型中保留少数几个全注意力层,对于在检索等高难度任务上保持高准确率至关重要。

然而,这些层的最佳放置位置一直不明确。

因此,研究团队引入了一种新方法,通过训练一个“一次性”超级网络 (once-for-all super network),自动学习应该在哪些位置使用全注意力层。

实验结果表明,与常用的均匀放置策略相比,这种学习到的放置方式在MMLU基准上的准确率有显著提升。

选择线性注意力模块

在确定了全注意力层的放置方案后,研究团队进行注意力模块搜索,以确定最优的线性注意力模块。

在实验中,他们评估了6个最先进的线性注意力模块(RWKV7由于训练吞吐量过低排除在外),结果如下。

由上表观察到,Gated DeltaNet实现了最优的整体准确率。因此,研究团队在后续实验中都采用Gated DeltaNet。

设计新型注意力模块

添加卷积是增强线性注意力能力的一种常用策略。然而,以往的方法仅仅依赖于静态卷积核 ,缺乏动态适应卷积核特征提取模式的能力。

于是,研究团队引入一种名为JetBlock的新型线性注意力模块。

此模块使用一个卷积核生成器 (kernel generator),能够根据输入内容动态地生成因果卷积核 (dynamic causal convolution kernels),然后将这些卷积核应用于 V (值) 词元上。此外,它还移除了在 Q (查询) 和 K (键) 上的冗余静态卷积,从而简化了计算流程。

执行硬件感知架构搜索

传统上,参数量被用作语言模型效率的代理指标。然而,参数数量与硬件效率并不直接相关。

基于“KV 缓存大小是影响长上下文和长生成吞吐量的最关键因素”的发现。

研究团队将KV缓存大小固定为原始设计的规格,并对key维度、value维度以及注意力头数进行了小规模的网格搜索。

这种硬件感知搜索能够在保持相似生成吞吐量的同时,利用更多参数以实现更高准确率。

好消息是,研究团队计划在GitHub上公开代码和模型,目前正等待法律合规审核。

显著的效率提升

Jet-Nemotron-2B和Jet-Nemotron-4B分别基于Qwen2.5-1.5B和Qwen2.5-3B模型构建。

为了全面评估模型性能,研究团队在数学、常识、检索、编码以及长上下文中都进行了测试。

数学任务上,Jet-Nemotron-2B取得了49.6的平均准确率,比Qwen3-1.7B-Base高6.3,同时速度快47倍。

相比之下,之前的线性注意力和混合模型在数学任务上远远落后于Qwen3-1.7B-Base。

常识推理任务上,Jet-Nemotron-2B平均准确率达到62.0,超越所有基线模型。

检索任务上,Jet-Nemotron-2B的表现优于除 Qwen3-1.7B-Base之外的所有基线模型。

当扩展到4B时,Jet-Nemotron-4B达到了76.2的最佳平均准确率,同时与Qwen3相比仍保持21倍的速度提升。

编码任务上,Jet-Nemotron-2B的平均准确率高于所有基线模型。

同时,Jet-Nemotron-4B在编码任务中表现更为突出,证明其在复杂任务处理上的优势。

长上下文处理方面,Jet-Nemotron-4B展现出更强的连续性,能够更准确地理解长篇文本中的逻辑关系。

这些测试结果表明,Jet-Nemotron在保持高准确率的同时,显著提升了处理效率,为实际应用提供了更优的选择。

团队背景与技术突破

韩松团队的核心成员来自麻省理工学院、加州大学伯克利分校、清华大学等顶尖学府,研究方向涵盖边缘计算、深度学习优化等多个领域。

韩松教授作为团队负责人,曾提出“深度压缩”技术,这项技术被广泛应用于高效人工智能计算领域,为现代AI芯片的权重稀疏性提供了理论基础。

团队成员在TinyML研究方面取得突破,成功将深度学习技术引入物联网设备,使边缘端机器学习成为可能。

2023年,韩松创办的OmniML公司被英伟达收购,这标志着Jet-Nemotron技术的商业化进程迈出了重要一步。

研究团队的多学科背景和深厚技术积累,为Jet-Nemotron的创新提供了坚实基础。

这项技术突破不仅提升了模型性能,更推动了人工智能在边缘设备上的广泛应用,为行业带来了新的发展机遇。