作者:Ying Yang等
解读:AI生成未来
亮点直击
识别了长时交互式世界建模中不稳定性的根本原因:同一场景内的微小漂移会不断累积,最终导致整体场景崩溃。
一种简单而有效的方法StableWorld,通过一种动态帧剔除机制(dynamic frame eviction),从源头上有效防止误差累积,同时保持运动的连续性。
在多种交互式世界模型上验证了该方法的有效性,包括 Matrix-Game 2.0、Open Oasis 以及 Hunyuan-GameCraft 1.0,并覆盖了多种场景条件(静态场景、小/大幅运动以及显著视角变化)。大量实验结果表明,该方法在稳定性、长期一致性以及跨交互场景的泛化能力方面均取得了持续而显著的提升。
图 1.StableWorld:在自然景观和游戏世界等不同环境中生成稳定且视觉一致的交互式视频,同时保持连续运动控制并防止长期场景漂移
总结速览
解决的问题
当前交互式视频生成模型(如世界模型)在生成长时间序列时,存在严重的稳定性不足与时间不一致性问题,表现为空间漂移和场景崩塌。
即使在没有交互或静态场景下,模型也会因误差累积导致生成帧逐渐偏离初始状态,破坏时间一致性。
提出的方案
提出StableWorld框架,其核心是动态帧淘汰机制。
在滑动窗口生成过程中,动态评估并保留几何一致性的关键帧(尤其是早期较“干净”的帧),淘汰退化或冗余的中间帧,从而从源头抑制误差累积。
应用的技术
使用ORB + RANSAC算法计算视角重叠度,以评估帧间几何一致性。
采用KV-cache 窗口扩展分析作为技术依据,验证引入更早、更干净的参考帧能有效稳定生成。
通过帧间均方误差(MSE)量化漂移积累,用于现象分析与验证。
达到的效果
显著提升稳定性与时间一致性:有效缓解长序列生成中的场景崩塌和空间漂移问题。
模型无关性:在多个交互式视频生成框架(如 Matrix-Game, Open-Oasis, Hunyuan-GameCraft)上均验证有效,具备良好泛化能力。
保持适应性:在抑制累积误差的同时,不影响模型对大幅运动和场景转换的响应能力。
方法
预备知识
视频生成模型。视频生成模型通常采用全序列生成方法,即在给定条件下一次性从噪声生成所有帧。形式上,生成过程可以定义为:
其中表示第帧在第个去噪步的状态,,为生成的总帧数。在每个时间步,所有帧共享相同的噪声方差,遵循统一的噪声调度。尽管这种方法能获得高质量的结果,但单次前向传递对整个序列建模会产生高昂的计算成本,并不适用于实时交互场景。
交互式视频生成。与全序列模型不同,交互式视频生成采用自回归范式,每一帧的生成都以部分历史帧和当前动作为条件。这种条件生成表示为,其中表示保存在记忆缓冲区中的选定参考帧,代表在第步用户发出或代理驱动的动作。这种范式允许模型根据用户动作按顺序生成帧,从而实现实时交互和动态场景控制。
大多数近期的方法进一步结合了扩散和自回归范式:扩散模型用于帧内去噪,而自回归用于捕捉帧间的时间依赖性。形式上,整体生成过程可以表示为:
其中表示扩散时间步下的第帧。在每个扩散步,模型以先前生成的帧和当前动作为条件,将去噪为。该公式融合了每帧内的空间去噪和跨帧的时间依赖性,实现了高质量且实时的交互式视频生成。
场景崩塌的原因
尽管交互式视频生成模型可以产生连贯的短期序列,但在长时间生成过程中,它们仍倾向于出现渐进式的场景崩塌,特别是当场景在很长一段时间内保持高度相似时(如下图2 所示)。相比之下,当场景频繁切换、模型不断遇到新的视觉条件时,这种崩塌很少发生(如下图6 所示)。这种对比表明,崩塌在很大程度上并非由动作控制或运动复杂性引起,而是与视觉信息如何在同一场景随时间推移的保存和传播有关。


为了理解这一行为,本工作测量了帧间均方误差(MSE)距离,以量化帧差异如何在单个静态场景的序列推进中变化,如下图3所示。左侧两图展示了在潜在空间中不同间隔(1, 5, 10, 20)下的帧间漂移。观察发现,虽然相邻帧仅表现出微小的差异,但这些小漂移随着序列的延长逐渐累积。在较大间隔(如 10 或 20)上比较的帧显示出显著更大的漂移。由于这种偏差已存在于潜在空间中,像素空间也表现出类似的漂移模式(如右侧两图所示),最终表现为视觉不一致和场景崩塌(上图2)。这些观察表明,同一场景内的漂移随时间累积并传播,最终导致全局场景崩塌。

基于这一观察,本工作假设使用累积漂移较小的帧作为参考,可以为后续帧的生成提供更可靠的基础。为了验证这一假设,本工作扩大了 KV-cache 的窗口大小,允许模型访问更清晰的帧,如下图4所示。检查了在不同历史窗口大小下,每个目标帧与第一帧之间的频率幅度差异如何变化。在默认设置下(窗口大小=9,图 (a)),所有频段都出现了巨大的波动。随着窗口大小增加到 36(图 (b))和 90(图 (c)),整体波动减缓,表明误差累积部分减少。然而,这种改进是以更高的计算开销和更慢的生成速度为代价的,这限制了其实用性。

进一步的分析表明,从较大窗口观察到的稳定性主要源于在参考缓冲区中保留了若干清晰的早期帧。例如,在图 (d) 中,在固定大小的窗口内保留少量可靠的早期帧会导致显著更稳定的生成,后期帧相对于第一帧表现出极小的漂移。这一发现强调了早期清晰帧的质量和保存对于缓解累积误差起着至关重要的作用。然而,当发生大幅度运动或剧烈的场景转换时,始终保留初始帧会变得具有局限性。如下图7 所示,尽管两种设置遵循相同的动作指令,但严格保留早期帧的设置无法切换到新场景,这表明过度的保留阻碍了场景转换。为了同时缓解累积漂移并保持生成新场景的灵活性,引入了StableWorld,这是一个基于动态帧剔除机制(见下图5)的简单而有效的框架。


基于 ORB 几何相似度的动态帧剔除
为了确定是否发生场景转换,本工作采用 ORB 特征匹配结合基于 RANSAC 的几何验证来测量帧间相似度。当推理阶段没有显式的相机外参时,ORB 提供了一种替代方案,可以生成快速且旋转不变的局部特征,使其非常适合检测小幅相机运动下的几何一致性。通过将这种相似度估计与动态帧剔除策略相结合,本工作持续过滤掉退化的帧,同时保留几何一致的帧,从而有效地防止跨动态场景的误差累积。
当窗口需要滑动时,必须剔除一些帧。为简单起见,假设每一帧对应一个 token,并且每次迭代生成一个 token。设表示窗口内的潜在空间 token,表示它们对应的像素空间帧,其中是窗口大小。窗口中较早的帧定义为,其中。这里,被视为参考帧,而被称为中间帧。在每个更新步骤中,生成一个新帧,并相应地剔除一个旧帧。
本工作使用以下策略确定应剔除哪一帧。首先,通过从参考帧和中间帧中提取 ORB 特征来测量几何相似度。设和分别表示从和提取的 ORB 描述符集,其中和是每帧中检测到的特征数量。候选对应关系通过描述符空间中的最近邻匹配获得,随后进行 Lowe 比率测试:
其中是用于过滤模糊匹配的比率测试阈值,表示幸存的对应关系数量。
然后使用 RANSAC 结合单应性矩阵 (H) 和基础矩阵 (F) 模型来验证中的匹配,以强制执行几何一致性:
其中和分别表示在估计的单应性矩阵和基础矩阵下评估的 Sampson 几何误差,和表示相应的内点对应集。是用于内点确定的预定义容差,误差越小表示几何对齐越好。本工作计算内点比率:
其中和表示两种模型下的内点对应数量。最终相似度分数定义为:
如果相似度分数超过预定义阈值,则继续对更远的帧进行检查。一旦几何相似度低于,过程停止。最后,如果所有中间帧都满足阈值,则剔除最远的帧。否则,剔除第一次失败之前的帧(例如)。详细过程和实现设置在附录 A 中提供。
实验
全面的实验验证了 StableWorld 在不同模型和场景下的有效性。
评估指标与设置
本工作在三个主要模型上进行了验证:Matrix-Game 2.0、Open-Oasis和Hunyuan-GameCraft 1.0。
数据集:涵盖了自然场景、游戏场景以及包含小幅运动和大幅运动的多样化视频序列。
指标:
VBench-Long:用于评估视频质量、美学质量、动态程度和时间一致性等多维度指标。
用户研究 (User Study):邀请 20 位参与者对视频质量、时间一致性和运动平滑度进行投票。
实现细节:对于不同的模型,设置了相应的 KV-cache 窗口大小和关键帧比较策略。ORB 相似度阈值统一设置为 0.75。
定量结果 (Quantitative Results)
VBench-Long 评分:如下表1所示,StableWorld 在所有三个模型上均显著提升了图像质量和美学质量。
在 Matrix-Game 2.0 上,美学质量提升了14.61%。
在 Open-Oasis 上,图像质量提升了7.38%。
在 Hunyuan-GameCraft 1.0 上,美学质量提升了9.06%。
虽然时间质量和物理理解指标变化不大(因为原版模型的崩塌往往导致静态画面,从而误导了这些指标),但 StableWorld 在大多数指标上仍有一致提升,且计算延迟仅增加1.00–1.02倍。
用户研究:如下表2所示,StableWorld 在视频质量、时间一致性和运动平滑度方面均获得了绝大多数用户的偏好(例如在 Open-Oasis 上,96.4% 的用户认为 StableWorld 视频质量更好)。
定性结果 (Qualitative Results)
下图8展示了三个模型在加入 StableWorld 前后的对比。

结果显示:
原版模型(Vanilla)在长序列生成中会出现严重的场景崩塌和漂移。
StableWorld 有效保持了场景的稳定性,减少了随时间推移的漂移,同时保持了运动的连续性。
更多定性比较在附录 C 中提供,证明了该方法在长序列(数千帧)和小/大运动场景下的鲁棒性。
消融实验
窗口大小 (Window Sizes):下图9显示,窗口过大(如 18 或 36)会引入旧场景的残留伪影,干扰新场景生成;窗口适中(如 9)效果最佳。
相似度度量 (Similarity Metrics):图10 和 图11对比了 SSIM、余弦相似度和 ORB。
SSIM 对视角变化过于敏感,导致过早剔除清晰帧。
余弦相似度对空间变换不敏感,容易遗漏场景变化,导致旧帧残留。
ORB在两者之间取得了最佳平衡。
ORB 相似度阈值:下图12显示,阈值设为0.75时效果最佳。过低会导致旧帧保留太久阻碍新场景生成,过高则导致清晰帧过早被剔除从而引入累积误差。


结论
本文指出了当前交互式视频生成模型面临的一个普遍问题:场景崩塌。通过深入分析发现这种崩塌源于同一场景内相邻帧之间发生的帧间漂移,这种漂移随时间逐渐累积,最终导致与原始场景的巨大偏差。受此观察启发,本工作提出了一个简单而有效的方法——StableWorld,这是一种动态帧剔除机制,能在保持运动一致性的同时显著减少误差累积。本工作在多个交互式视频生成模型(包括 Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0)上评估了该方法。大量实验表明,本工作提出的方法大幅提高了长时生成的视觉质量,并显示出与未来世界模型集成的巨大潜力。
参考文献
[1] StableWorld: Towards Stable and Consistent Long Interactive Video Generatio
原文标题:告别时空崩坏,生成式游戏迎来“稳态”时刻!南大等StableWorld:打造无限续航虚拟世界
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/news/1547.html
