开源AI能玩出啥新花样?视频创作效率,能提升多少?
AI视频生成技术迎来爆发式突破!UCSD等机构最新发布的FastWan系列模型,在单块H200显卡上实现5秒生成5秒视频的突破,去噪速度提升70倍,重新定义了视频生成效率。
这项技术突破让视频生成从分钟级压缩到秒级,单块H200显卡就能完成以前需要多卡协同的任务。UCSD、UC伯克利、MBZUAI三大机构联合研发的FastWan2.1-1.3B模型,在单张H200上仅需1秒完成去噪,5秒内生成480P视频。
在RTX 4090显卡上,生成一个视频耗时21秒,去噪时间2.8秒。升级版FastWan2.2-5B模型在单张H200上生成720P视频仅需16秒。所有模型权重、训练方案和数据集均完全开源,标志着AI视频生成技术进入新的发展阶段。
稀疏蒸馏技术让视频生成进入极速模式
「稀疏蒸馏」为何能让视频生成速度提升如此显著?这要从视频生成的底层机制说起。传统视频扩散模型虽然强大,但面临两大瓶颈:生成视频需要大量去噪步骤,长序列处理时注意力计算成本高。
以Wan2.1-14B为例,生成5秒720P视频需要50次扩散步骤,处理超8万token,其中注意力操作消耗85%以上推理时间。此时「稀疏蒸馏」技术成为关键突破点。
这项技术首次在统一框架中实现稀疏注意力与去噪步骤蒸馏的联合训练。其核心在于解决一个关键问题:在保持生成质量的前提下,能否通过减少计算量提升速度?
三大组件构建高效视频生成系统
要实现这项突破,需要三个核心组件配合。首先是稀疏蒸馏训练框架,通过FSDP2实现三模型参数跨GPU分片,显著降低内存开销。其次是激活检查点技术,缓解长序列产生的高激活内存问题。
第三是梯度计算开关控制,精细管理蒸馏各阶段的梯度计算。同时引入梯度累积技术,在有限显存下提升有效批次规模。这些创新让Wan2.1-T2V-1.3B模型在64张H200 GPU上运行4000步,仅消耗768 GPU小时。
一张显卡实现秒级视频生成
在Scaling实验中,研究团队预训练4.1亿参数视频DiT模型,保持87.5%稀疏度情况下,VSA取得的损失值与全注意力机制几乎一致。注意力计算FLOPS降低8倍,端到端训练FLOPS减少2.53倍。
实际测试中,Wan-1.3B的DiT推理时间从全注意力模式的31秒降至VSA模式的18秒。在长序列场景下,VSA实现近7倍加速,相比FlashAttention-3仍有6倍以上优势。即使计入粗粒度阶段计算开销,仍保持6倍加速。
研究团队还对模型进行了微调测试,结果显示VSA应用于Wan-1.3B和Hunyuan模型时,推理速度提升达2-3倍。在粗粒度阶段生成的块稀疏注意力呈现高度动态性,验证了技术的可靠性。
这项突破意味着视频生成从分钟级压缩到秒级,单块显卡就能完成以前需要多卡协同的任务。这对需要实时视频生成的行业,如电商直播、短视频制作、虚拟现实等,将带来显著效率提升。
作者团队来自UCSD Hao AI Lab,研究者包括博士生张培源、实习生陈永琪、博士生林威和本科生黄浩峰。团队在视频生成领域有深厚积累,曾开发TinyLlama、lmms-eval等项目,为这项技术突破奠定了坚实基础。