场景感知视频模型,真的能理解你的需求吗? 谁能带来更靠谱的实用体验?

2025-10-12 11:00:32 作者:Vali编辑部

AI生成的视频场景总在转头就变样,场景元素像被风吹散的沙子,缺乏一致性?

其实不然,这次的技术突破让场景元素像被磁铁吸附一样稳定。以《塞尔达传说》的绿色田野为例,无论镜头怎么晃动,草地、树木和远处的山峦都纹丝不动;《黑神话悟空》的废弃寺庙里,砖石墙面和飞檐斗拱的细节也始终如一;《原神》的云堇角色在镜头中舞动时,衣袂飘飘的动态也保持着高度连贯性。

这种惊艳效果的实现,离不开香港大学与快手可灵团队研发的"上下文即记忆"技术。这项创新不仅解决了长视频生成中场景一致性的问题,更让AI生成的内容在视觉上更接近人类的创作习惯。

记忆如何让视频更连贯?

在视频生成领域,记忆分为两种类型:一种是处理短期动态的"动态记忆",比如角色动画、车辆轨迹、粒子效果和天气变化;另一种是维持场景稳定的"静态记忆",包括游戏地图、建筑结构、角色模型和物体外观。这两种记忆在长视频生成中各司其职,但传统的技术往往难以兼顾。

这次的新方法通过"上下文即记忆"技术,让模型能够像人类一样记住场景的"记忆点"。简单来说,就是让AI在生成视频时,能够像人类创作者那样记住场景的细节,比如《塞尔达传说》的绿色田野不仅是简单的绿色,还包含着草地的纹理、树木的分布和山峦的轮廓。

这项技术的核心在于三个关键点:首先,模型需要记住长时间的场景信息,不能只依赖最近的几帧;其次,通过"记忆检索"模块筛选出真正有用的历史信息;最后,将筛选出的上下文帧直接拼接在输入中,让模型在生成新帧时能参考这些历史信息。

具体来说,模型会从无限长度的历史上下文中开始,利用"记忆检索"模块找出那些与当前生成最相关的上下文帧。这些被筛选出的上下文帧与带噪声的待预测帧拼接在一起,作为"自回归视频扩散Transformer"的输入。模型处理这个拼接后的输入时,会利用历史记忆作为条件来指导去噪过程,最终生成一系列最新的预测帧。

这种技术优势在于,既避免了直接处理全部历史上下文的巨大计算开销,又克服了仅依赖短期上下文导致的场景不一致问题。就像在《黑神话悟空》的废弃寺庙中,砖石墙面的细节和飞檐斗拱的结构在镜头移动时始终清晰可见,不会出现突然消失或变形的情况。

记忆检索如何选择关键帧?

传统方法通常采用随机选取、就近选取或压缩的方法,但这些方式在处理复杂场景时容易遗漏关键信息。这次研究提出了一种新的方法——基于摄像机轨迹搜索。

这种方法通过已知的摄像机轨迹,选择与当前生成帧可视区域高度重叠的上下文帧。通过计算过去帧和未来帧之间的视场重叠,仅选择重叠度较高的帧作为上下文,既保证了计算效率,又保持了场景一致性。

为了验证这一方法的可行性,研究团队还利用Unreal Engine 5制作了一个包含长时序视频、摄像机位姿和字幕标注的数据集。这个数据集包含100个视频,涵盖12种不同风格的场景,每个视频由7601帧组成,每隔77帧就由多模态大模型生成对应的字幕。

值得注意的是,摄像机的运动设计为左右摇镜,这种简化处理让位姿计算更加直观。将摄像机控制限制在二维平面上,包括xy方向上的移动和z轴上的旋转,这种设计既保持了场景的连贯性,又降低了计算复杂度。

技术验证效果如何?

研究团队在相同的基础模型、数据集和训练配置下,将"上下文即记忆"方法与多种视频生成技术进行了对比测试。

对比方法包括:单帧上下文(仅使用第一帧作为上下文)、多帧上下文(使用第一帧+随机选取的历史帧)、DFoT(固定大小的窗口,只利用最近的20帧)、FramePack(将历史上下文压缩成两帧)。

实验结果显示,"上下文即记忆"方法在记忆能力和生成质量上都显著优于基线和SOTA方法。这表明该技术能够有效利用历史上下文,避免冗余和历史信息丢失,从而保持长视频生成的一致性。

在开放域场景测试中,研究团队选取了不同风格的图像作为首帧,使用"旋转远离再旋转返回"的轨迹进行验证。结果显示,这项技术在复杂场景中依然能保持良好的记忆能力,证明其具有广泛的适用性。

技术背后的团队故事

这项突破性研究由香港大学、浙江大学和快手可灵团队联合完成。第一作者余济闻是香港大学在读博士生,师从刘希慧教授,目前在快手可灵团队担任研究实习生,接受王鑫涛博士的指导。

余济闻此前在北京大学获得硕士学位,师从张健教授。他的研究方向包括交互式视频生成、世界模型和具身人工智能。他此前在视频生成与世界模型方向的研究成果《GameFactory: Creating New Games with Generative Interactive Videos》曾入选ICCV 2025 Highlight。

这项技术的诞生,不仅让AI生成的视频更接近人类创作,也为AI在服装设计、鞋履制作等领域的应用提供了新的可能性。当设计师在AI工具中调整服装图案时,系统能记住每处细节;当鞋履设计师修改鞋底结构时,AI能保持整体设计的连贯性,这种技术突破正在改变AI创作的边界。