监督稀疏解决了！DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law-机器人产业网

导读：近日，特斯拉在 ICCV 的会议中就分享了其当下面临的挑战 ——监督稀疏。监督信号是低维、稀疏的驾驶动作，和 VLA 高维、稠密的视觉信息流不符。即便使用海量数据也无法释放 VLA 模型的巨大潜力。针对这个问题，一支由国内顶尖技术机构和华为合作的论文给出了解答。他们提出了DriveVLA-W0，这是...

近日，特斯拉在 ICCV 的会议中就分享了其当下面临的挑战 ——监督稀疏。

监督信号是低维、稀疏的驾驶动作，和 VLA 高维、稠密的视觉信息流不符。即便使用海量数据也无法释放 VLA 模型的巨大潜力。

针对这个问题，一支由国内顶尖技术机构和华为合作的论文给出了解答。他们提出了DriveVLA-W0，这是一种利用世界建模来预测未来图像的训练范式，表明世界模型是解锁 VLA 数据规模定律的关键。

三步研究方法

研究法分为三个关键步骤。

构建一个VLA 基线模型，以展示仅基于稀疏动作的监督所面临的挑战。

利用世界建模增强了该基线模型，提供了密集的自监督信息。

引入一个轻量级的、基于 MoE 的动作专家来解决推理瓶颈，从而确保模型能够实现实时性能。

视觉-语言-动作（VLA）基线模型处理语言指令（L）、正面图像（V）和过去动作（A）序列。为了确保其广泛的适用性，团队还构建了两种主流视觉语言模型（VLM）的变体：VLA（VQ），它将图像量化为离散的视觉标记；**VLA (ViT)**，它为 Qwen2.5-VL 风格的骨干网提取连续特征。

为了解决问题，研究团队引入世界建模作为自监督目标。包括 AR 世界模型、扩散世界模型等。

轻量级的动作专家（500M）与主 VLA 专家在混合专家 (MoE) 架构中协同工作。这种架构上的相似性使得它们能够通过联合注意力机制实现深度且高效的信息融合。

实验结果

DriveVLA-W0 在 NAVSIM 基准测试中取得了新的最佳性能，超越了不同架构范式下的顶级方法，包括基于 BEV 的 WoTE和基于 VLA 的 AutoVLA。

值得注意的是，模型仅使用单个前视摄像头就实现了如此性能。

在数据扩展的情况下，世界建模优于仅依赖动作的监督方法。使用基线方法模型在稀疏监督下早期就会达到瓶颈，而 VLA-W0 会表现出持续的改进。

研究人员通过在 H200 GPU 上测量推理延迟来验证 MoE 架构的效率。与基线 DriveVLA-W0（延迟 117.8 毫秒，PDMS 为 85.6）相比，VLA-W0 延迟降低至 74.3 毫秒，同时性能提升至 88.4 PDMS。

研究显示，监督不足是阻碍自动驾驶中视觉-语言-动作模型可扩展性的根本瓶颈。采用密集型预测世界建模是实现大规模数据全部潜力、构建更通用驾驶智能的关键一步。

参考资料：

https://arxiv.org/abs/2510.12796

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1275.html

三步研究方法

实验结果

相关文章