Meta 与牛津大学合作论文：从语言预训练中揭开 LLM 视觉先验的起源-机器人产业网

导读：大型语言模型 (LLM) 尽管仅基于文本进行训练，却意外地能够发展出丰富的视觉先验。这些先验使得模型能够利用相对少量的多模态数据来解锁潜在的视觉能力，从而完成视觉任务。在某些情况下，甚至无需任何图像即可执行视觉任务。Meta 与牛津大学研究团队近日发布的一篇论文表示，LLM 的潜在视觉推理能力主要通...

大型语言模型 (LLM) 尽管仅基于文本进行训练，却意外地能够发展出丰富的视觉先验。这些先验使得模型能够利用相对少量的多模态数据来解锁潜在的视觉能力，从而完成视觉任务。在某些情况下，甚至无需任何图像即可执行视觉任务。

Meta 与牛津大学研究团队近日发布的一篇论文表示，LLM 的潜在视觉推理能力主要通过基于推理中心数据（例如代码、数学、学术）的预训练而发展，并且会逐步扩展。这种从语言预训练中获得的推理先验具有可迁移性，并且普遍适用于视觉推理。

基于这个发现，Meta 提出了一种以数据为中心的视觉感知 LLM 预训练方案，并在 1T token 规模的预训练中进行了验证。

以下是论文的主要亮点。

研究与发现

在预训练的过程中，团队仅使用了一套解码器的 Transformer 模型，这些模型严格遵循 Llama-3 架构，涵盖五种模型规模参数。这些模型针对不同数量的 token 进行训练，token 数量最多达到 1T。

这些研究探讨了模型和数据规模、数据源、视觉世界和推理数据混合等基本变量的影响。

模型和数据大小的影响

研究表明，VQA 性能与模型和数据规模呈正相关。然而，这种正相关关系在所有视觉能力中并不统一。

模型大小和预训练数据大小通常都会带来更强的下游多模态性能。这对于整体平均 VQA 来说是正确的。然而，仔细观察不同的 VQA 类别会发现明显的细微差别。通用 VQA 和知识 VQA 的性能表现出类似的扩展趋势，随着模型和数据大小的增加而持续提高。与此形成鲜明对比的是，OCR 和图表 VQA 对模型大小的敏感度远高于数据量；模型之间的性能差距明显更大。

预训练数据源的影响

除此之外，特定类别的语言预训练数据可以增强最终 MLLM 中的某些视觉能力。特别是与推理和视觉世界相关的数据，可以显著提高以视觉为中心的任务性能。

结果显示，下游多模态性能因预训练数据源的不同而存在显著差异。这种差异表明，不同类别的文本数据导致了截然不同且不均匀的视觉先验。值得注意的是，在以视觉为中心的 VQA 任务中，出色的性能与两类数据高度相关：一类是以推理为中心（例如代码、数学、学术）的数据，另一类是富含视觉世界描述的语料库（例如艺术、美食）。

推理和视觉数据比例的影响

团队发现，少量有关视觉世界的数据至关重要，但其贡献很快就会饱和。相反，增加预训练组合中以推理为中心的数据的比例会逐步增强视觉能力，性能提升率最高可达75%。

增加以推理为中心的数据的比例会带来显著的性能提升，其优势在达到 75% 后趋于稳定。这表明强大的推理基础对于提升视觉能力至关重要。相比之下，明确描述视觉世界的数据呈现出收益迅速递减的趋势，只有少量此类数据对于建立基线至关重要。

讨论和假设

Meta 还提出三个关键假设，分别关于感知先验的结构、推理的普遍性以及数据结构在跨模态匹配中的作用。

感知先验是多层次的吗？

之前的分析表明，感知先验的起源是弥散的，在多样化的数据中表现得最为明显。这种先验是一种统一的能力，还是具有更细粒度的特征？

结果表明，感知先验确实与尺度相关。一个可能的解释是，多样化、非结构化文本包含海量词汇，这种文本丰富性迫使模型学习对细粒度视觉概念敏感的表征，而这种能力在识别大型、明显的物体时并不那么重要。

推理能力是否是一种通用的、跨模态的技能，并且在预训练阶段就已习得？

团队认为，LLM 从文本中获得的推理能力并不局限于语言领域。通过对以推理为中心的数据进行预训练，模型可以学习抽象的、可推广的逻辑、结构和组合性原则。

结果显示，LLM 从文本中学习到的推理能力可以迁移到视觉领域。团队观察到一个明显的趋势：随着以推理为中心的数据比例的增加，模型生成的视觉推理不仅逻辑上更加合理，篇幅也显著增加。例如，将代码推理数据的比例从 0% 提高到 100%，逻辑合理性从 4.52% 提升到 9.52%，推理深度也增加了六倍多。

语言数据结构是否能驱动视觉数据的表征一致性？

团队提出语言数据的结构特性可以部分驱动与视觉数据的表征一致性的假设。

结果表明，LLMvision 对齐分数总体呈现正向但非单调的趋势。随着结构化推理数据比例的增加，对齐得分通常会提高，这表明从抽象结构中学习可以形成更一致的潜在空间。然而，这种趋势在 75% 的比例下达到峰值，然后在 100% 时下降。这可能是因为纯粹基于推理数据训练的模型学习了抽象结构，但缺乏来自其他文本类型所需的词汇来有效地将其映射到不同的视觉概念上，从而阻碍了最终的对齐。

参考资料：https://arxiv.org/pdf/2509.26625

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1174.html