一张图一个声音,长视频就能做?这技术能用在哪?
最近,夸克技术团队联合浙江大学开源的OmniAvatar项目引发了不少关注。这个音频驱动全身视频生成模型,只需一张图片和一段音频就能生成完整视频,而且在唇形同步和动作流畅度方面有了明显提升。更值得关注的是,用户可以通过提示词精准控制人物姿态、情绪和场景要素,这种灵活性让很多创作者看到了新的可能性。
开源项目地址如下:
Model:https://www.valimart.net/
Code:https://www.valimart.net/
Arxiv:https://www.valimart.net/
Project Page:https://www.valimart.net/
实际测试显示,OmniAvatar在播客、唱歌、互动场景等应用中表现尤为突出。特别是在动态背景和镜头运动场景下,模型依然能保持面部、动作和背景的自然流畅,这种适应能力对内容创作者来说非常实用。
从第三方评测角度看,OmniAvatar在多个维度都展现了竞争力。比如在唇形同步方面,模型能准确捕捉音频节奏,让面部表情与声音完美匹配;在动作生成上,全身运动的连贯性比传统方法有明显提升。这种技术突破让视频生成的效率和质量都得到了实质性改善。
模型能力图片+音频=全身视频
当前音频驱动人体运动技术虽有进展,但多数集中在面部表现,缺乏全身驱动能力。OmniAvatar以Wan2.1-T2V-14B为基础模型,通过LoRA微调引入音频特征。这种结合方式既保留了原模型的视频生成能力,又增强了对音频输入的适应性,让生成效果更自然。
OmniAvatar架构图
具体应用案例显示,模型能根据音频和提示词生成虚拟人物视频。比如在唱歌场景中,人物的唇形运动与音频内容高度吻合,场景也能准确反映提示词要求。这种精准控制能力对需要个性化定制的内容制作非常关键。
通过调整提示词,还可以实现对人物情绪的精确控制。比如在表达悲伤或喜悦时,模型能通过面部表情和肢体动作传递出相应情绪。这种细腻的表现力让视频更加生动真实。
在动态场景中,OmniAvatar同样表现出色。即使有镜头运动,模型依然能保持面部、动作和背景的自然流畅。这种适应能力对需要多角度拍摄的视频内容来说尤为重要。
对于长视频生成,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性。这种技术在制作系列视频或长内容时具有明显优势。
像素级多层次音频嵌入策略精准唇部运动+自然肢体动作
多数现有方法依赖交叉注意力机制引入音频特征,虽然效果不错但计算开销大。OmniAvatar采用基于像素的音频嵌入策略,让音频特征直接融入潜在空间。这种处理方式不仅让唇部运动与音频内容自然对齐,还能确保音频信息在整个视频中均匀分布,使身体动作更协调。
该策略首先用Wav2Vec2模型提取音频特征,再通过打包压缩映射到视频潜在空间。多层级音频嵌入策略则让音频信息在不同网络层间均匀分布,既保留了模型学习能力,又避免了特征干扰。
基于LoRA的优化策略平衡微调,兼顾质量与细节
目前音频条件扩散模型主要有两种训练方式:完整训练和局部微调。完整训练容易导致模型过度拟合,生成内容不自然;局部微调又会降低音频与视频的对齐效果。OmniAvatar提出的LoRA策略在两者之间找到了平衡点。
LoRA通过低秩矩阵更新注意力和前向传播层权重,让模型在不改变底层容量的情况下学习音频特征。这种优化方式既保持了生成质量,又提升了细节表现力。
长视频生成身份保留+时间一致性
长视频连续生成是音频驱动视频生成的难点。OmniAvatar通过参考图嵌入和重叠帧策略,有效解决了身份保留和时间一致性问题。
身份保留方面,模型引入参考帧作为固定指导。通过重复参考帧潜在表示,确保视频序列中的人物一致性。这种设计在制作系列视频时能保持角色特征稳定。
时间一致性方面,模型采用潜在重叠策略。训练时用单帧和多帧前缀变量组合,推理时用前一组最后帧作为潜在变量。这种处理方式让视频过渡更自然,避免了画面跳跃。
One More Thing
OmniAvatar是团队在多模态视频生成领域的初步尝试,经过实验数据集验证,但尚未达到产品级应用水平。未来团队计划在复杂指令处理和多角色交互等方面进一步探索,拓展模型在更多场景中的应用。