DeepMind 发表 Veo 3 论文：视觉推理领域的 GPT-3 时刻来临！-机器人产业网

导读： “ 逐帧视频生成与语言模型中的思维链相似。正如思维链（CoT）使语言模型能够用符号进行推理一样，“帧链”（CoF）使视频模型能够跨越时间和空间进行推理。DeepMind 最新发表的 Veo 3 论文首次提出了Chain of Frames（CoF）的概念。Veo 3 新兴的零样本能力表明，视频模型正...

“
逐帧视频生成与语言模型中的思维链相似。正如思维链（CoT）使语言模型能够用符号进行推理一样，“帧链”（CoF）使视频模型能够跨越时间和空间进行推理。

DeepMind 最新发表的 Veo 3 论文首次提出了Chain of Frames（CoF）的概念。

Veo 3 新兴的零样本能力表明，视频模型正在走向统一的通用视觉基础模型。

大型语言模型 (LLM) 的零样本能力推动了自然语言处理从特定任务模型向统一的通用基础模型的演进。

这种转变源于简单的基元：在网络规模数据上训练的大型生成模型。

有趣的是，同样的基元也适用于当今的生成视频模型。Google DeepMind 团队证明 Veo 3 可以解决各种未经明确训练的任务：分割物体、检测边缘、编辑图像、理解物理属性、识别物体可供性、模拟工具使用等等。这些感知、建模和操纵视觉世界的能力，使早期的视觉推理形式（如迷宫和对称性求解）成为可能。

研究方法

视频模型是否能够开发通用的视觉理解，就像 LLM 开发通用的语言理解一样？

DeepMind 的回答是肯定。

他们采用了一种很简单的方法：使用初始输入图像和文本指令来提示 Veo 3。

在自然语言处理 (NLP) 领域，提示取代了针对特定任务的训练或适应。在视频模型的推动下，机器视觉领域也即将出现类似的范式转变。

团队首先对视觉任务进行定性研究，以评估视频模型作为视觉基础模型的潜力。研究结果分为四个层次，每个层次都建立在最后一个层次之上。

四个层次分别为：感知、建模、操作、推理。这种层次结构提供了一个框架，用于理解视频模型的新兴能力。

结果显示，Veo 3 展现出了超越训练任务的新兴零样本感知能力，很可能会取代计算机视觉领域中的大多数定制模型。

感知、操作、推理

DeepMind 团队针对不同任务对 Veo 进行定量评估。包括感知（评估 Veo 的边缘检测、分割和目标提取）、操作（图像编辑性能）、迷宫求解、视觉对称性和视觉类比。

据观察数据显示，Veo 2 到 Veo 3 的性能大幅提升，可以匹敌甚至超过 Nano Banana 的性能。

感知

尽管没有经过专门训练，Veo 3 也可以被提示检测并感知边缘，边缘图比真实值更详细。

操作

通过实验，团队发现 Veo 3 在编辑过程中尤其擅长保留细节和纹理。如果能够更好地控制摄像机移动或人物动画等因素，视频模型就可以成为功能强大的 3D 感知图像和视频编辑器。

推理

Veo 3 展示了零次迷宫求解能力，优于 Veo 2的求解能力。在 5×5 网格中，Veo 3 的通过率为78%，而 Veo 2 仅为 14%。

在视觉对称性求解的测试中，Veo 3 的表现远超 Veo 2 和 Nano Banana。

在视觉类比测试中，Veo 3 正确地完成了颜色和调整大小的示例，展示了理解物体之间变化和关系的能力。

结语

机器视觉正处于类似的范式转变的边缘，这得益于大规模视频模型的新兴能力。

Veo 3 可以用零样本的方式解决各种任务，涵盖从感知到建模、操作甚至早期形式的视觉推理。虽然它的性能还不完美，但从 Veo 2 到 Veo 3 的巨大而持续的改进表明，视频模型将成为视觉的通用基础模型，就像 LLM 之于语言一样。

参考资料：https://arxiv.org/pdf/2509.20328

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1171.html

研究方法

感知、操作、推理

感知

操作

推理

结语

相关文章