视频模型在真推理还是“演”推理？港中文等提出新基准拷问:Chain-of-Frame到底是真是假？-机器人产业网

导读：作者：Ziyu Guo等解读：AI生成未来引言近年来，以 Veo、Sora 等为代表的视频生成模型展现出惊人的生成能力，能够合成高度逼真、时间连续的动态画面。这些进展暗示，模型在视觉内容生成之外，或许已开始具备对物理世界结构与规律的潜在理解。值得注意的是，Google 最新研究指出，诸如 Veo-3...

作者：Ziyu Guo等

解读：AI生成未来

引言

近年来，以 Veo、Sora 等为代表的视频生成模型展现出惊人的生成能力，能够合成高度逼真、时间连续的动态画面。这些进展暗示，模型在视觉内容生成之外，或许已开始具备对物理世界结构与规律的潜在理解。

值得注意的是，Google 最新研究指出，诸如 Veo-3 等模型正在显现出超越纯粹生成的“涌现能力”，例如感知建模、动态预测以及推理能力。

由此催生出一个与语言模型“思维链”（Chain-of-Thought, CoT）相对应的新概念——帧链推理（Chain-of-Frame, CoF）。

其核心思想在于：视频模型通过逐帧生成过程，构建连贯的视觉演化，从而体现思维与推理的过程。然而，一个关键问题仍悬而未决——这些模型是否真的具备零样本推理（Zero-Shot Reasoning）能力？还是仅仅在模仿训练数据中的表层模式？

为验证这一点，来自香港中文大学、北京大学、东北大学等机构的研究团队开展了系统研究，对 Veo-3 等模型的零样本推理潜能进行全面评估，并提出了涵盖空间、几何、物理、时间等 12 个维度的综合基准——MME-CoF。

什么是 Chain-of-Frame（CoF）？

“帧链推理（CoF）”可以视作语言中“思维链”（CoT）的视觉化形式：

CoT：通过逐步生成文本展示思考与推理路径。CoF：通过逐帧生成画面，以动态演化的方式呈现推理与决策过程。

这种方式使模型不仅输出结果，更在生成的时间维度上“展示”其思考轨迹。

12 项推理挑战概览

研究团队围绕 12 个推理维度构建了系统测试，对 Veo-3 模型进行了实证评估。以下为部分典型任务摘要。

视觉细节推理（Visual Detail Reasoning）

目标：检测模型保持细粒度视觉属性（颜色、纹理）与空间关系的能力。

表现：对显著、易识别物体表现较好。

局限：当目标较小、被遮挡或背景复杂时，模型易偏离任务目标或生成风格化偏差。

视觉追踪推理（Visual Trace Reasoning）

目标：评估模型在动作序列中维持因果连续性的能力。

表现：在简单任务中能生成连贯的短时序路径。

局限：长时序或高逻辑依赖任务中，模型难以保持连贯因果关系。

物理推理（Physics-based Reasoning）

目标：测试模型是否理解重力、碰撞、摩擦等物理规律。

表现：能生成短期合理的动态画面。

局限：经常违反物理约束（如能量守恒），仅在“模仿”物理而非真正推理。

真实世界空间推理（Real-World Spatial Reasoning）

目标：测试模型在视角变化下保持空间一致性的能力。

表现：简单场景中能维持基本的方向与空间结构。

局限：在复杂多视角任务中常出现空间错位或漂移。

3D 几何推理（3D Geometry Reasoning）

目标：评估模型在立体折叠、旋转与重构任务中的结构理解。

表现：在单步操作中具备一定三维感知。

局限：复杂组合变换时易崩坏，缺乏稳定几何一致性。

2D 几何推理（2D Geometry Reasoning）

目标：检验模型在平面构图与形状关系中的精确度。

表现：能识别并绘制基础几何关系。

局限：更倾向生成“好看”的图形而非“正确”的几何，易出现逻辑顺序错误。

其他六个推理维度概览

除上述6项外，其余6个维度同样揭示了 Veo-3 的限制：

旋转推理（Rotation Reasoning）：小角度旋转可近似实现，大角度下结构崩坏。

图表推理（Table & Chart Reasoning）：可模仿局部视觉模式，但缺乏对数值关系的真实理解。

物体计数（Object Counting Reasoning）：在静态场景下表现良好，但动态环境中常出现漏数或重复。

GUI 推理（GUI Reasoning）：能生成点击或拖动动作，但对操作目的与逻辑缺乏认知。

具身推理（Embodied Reasoning）：能识别物体位置与动作，但不遵守环境规则，偶有“作弊式”生成。

医学推理（Medical Reasoning）：在放大或观察局部细节时具备表面能力，但无法保持影像逻辑一致，易出现结构性错误。MME-CoF：首个视频推理基准

研究团队据此提出 MME-CoF，这是首个专门用于量化视频模型推理能力的标准化评测体系。其主要特征包括：

首个系统化视频推理评估框架；覆盖 12 个维度；将抽象的推理过程转化为视频生成挑战，以迫使模型在视觉上展示“帧链思考”。

基于 MME-CoF 基准，研究团队对多个主流模型进行了量化评测（由 Gemini-2.5-Pro 评分，满分 4 分）。结果显示：

整体表现较低：多数模型平均得分不足 2 分，推理能力仍有限。优势差异显著：Sora-2 在物理、具身与医学推理中表现相对突出；Veo-3 在真实空间推理上具优势；Seedance-1.0-Pro 在旋转与三维几何任务中略胜一筹。总体趋势：各模型均在特定方向具备偏好性，但仍停留在“模式重现”层面，尚未形成真正的逻辑推理能力。

结论：推理，还是表演？

通过对 Veo-3 等模型的实证分析，研究团队得出如下结论：

缺乏真正的零样本推理：当前视频模型更多依赖数据模式，而非自主逻辑推演。生成强 ≠ 推理强：高质量的画面并不代表深层理解。注重表象，忽视因果：生成结果“看似合理”，但常违背逻辑或物理规律。视频模型可作为视觉推理系统的重要模块，与语言或逻辑模型结合，推动多模态智能迈向真正的“通用理解”。

总体来看，本研究为学术界构建了一个系统且可验证的实证评估框架，清晰揭示了视频生成模型在从“内容生成”迈向“逻辑推理”，并迈向真正“通用视觉智能”过程中仍需跨越的核心瓶颈。

参考文献

[1] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

原文标题:视频模型在真推理还是“演”推理？港中文等提出新基准拷问:Chain-of-Frame到底是真是假？

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/news/1194.html

相关文章