机器人产业网

Meta“分割一切”的SAM 3D 来了!

2025-12-06 10:56:56 浏览:105
导读: 就在刚刚,Meta MSL 实验室发布三维重建模型 SAM 3D。“分割一切”现在可以直接生成 3D 模型了。前不久,Meta 发表 SAM 3 论文,能够检测、分割和跟踪图像和视频中的对象,还支持简短的文本短语和示例提示。现在,SAM 3 更是带来 3D 新范式,将模型引入到三维空间,从单个 2D...

就在刚刚,Meta MSL 实验室发布三维重建模型 SAM 3D。

“分割一切”现在可以直接生成 3D 模型了。

前不久,Meta 发表 SAM 3 论文,能够检测、分割和跟踪图像和视频中的对象,还支持简短的文本短语和示例提示。

现在,SAM 3 更是带来 3D 新范式,将模型引入到三维空间,从单个 2D 图像中精确重建 3D 物体和人物

从静态到3D

此次发布包含两个全新模型:

  1. SAM 3D Objects 模型:用于物体和场景重建

  2. SAM 3D Body 模型:用于人体和体型估计

两个模型均能够将静态 2D 图像转换为精细的 3D 重建模型。

3D Objects

SAM 3D Objects 能够从单张自然图像中实现稳定且基于视觉的 3D 重建和物体姿态估计,从而从日常图像中重建物体的精细 3D 形状、纹理和布局。

针对小物体、间接视角和遮挡现象,模型可以通过识别上下文信息辅助重建,弥补像素不足的缺点。

使用 SAM 3D Objects,用户可以从一张图像开始选择任意物体,快速生成 3D 模型。这意味着用户可以在重建的 3D 场景中精确操作单个物体,从不同视角进行观察。

过去的 3D 模型受到数据可用性的限制,真实数据的数量级有限,导致 3D 模型的应用范围仅限于合成或人为设置的场景。

要应用于日常环境中常见的更具挑战性的场景,则需要一种新的方法。

SAM 3D Objects 利用强大的数据标注引擎,将 3D 数据和训练方案紧密结合。

与文本、图像或视频不同,从零开始创建 3D 真实数据需要高度专业化的技能,3D 数据采集效率低、成本高。

然而,验证或对网格进行排序更简单。可以通过构建一个数据引擎来实现规模化。该引擎要求标注员对循环模型套件生成的多个选项进行评分,最难的部分可交由 3D 美术师完成,以填补数据盲区。

这样,研究人员就能大规模对物理世界图像进行标注,包括 3D 对象的形状、纹理和布局。SAM 3D 一共标注了近 100 万张不同的图像,并生成了约 314 万个循环模型网格。

为了使模型能够处理自然图像,后续的后训练阶段需要进行校准。数据引擎还能提供数据来支持后训练过程。模型鲁棒性和输出质量的提升也使数据引擎能够更好地生成数据,从而形成一个正反馈循环。

为搭建单张图像三维重建物理世界物体的自然图像分布基准数据集,Meta 还构建了SAM 3D 艺术家物体数据集(SA-3DAO)。这是首个用于评估基于视觉的物理世界图像三维重建的数据集,包含更具挑战性的多样化图像和物体。SAM 3D Objects 能够很好地进行泛化,并支持密集场景重建。在与人类用户进行的直接对比测试中,其成功率至少达到其他领先模型的 5 倍。通过扩散捷径和工程优化,可以在几秒钟内生成高质量重建结果。

官方表示,下一步是提高输出分辨率和改进物体布局

目前,输出分辨率仅限“适中”水平,限制了复杂物体的细节呈现,可能会出现失真或丢失细节。因此,下一步自然是提高输出分辨率。

SAM 3D Objects 目前一次只能预测一个物体,并没有接受过物理交互的推理训练。如果能够预测多个物体并结合适当的损失函数,就可以对场景中的多个物体进行联合推理。

3D Body

SAM 3D Body 即使在涉及不寻常姿态、图像部分被遮挡或多人等复杂情况下,也能精确估计 3D 人体姿态和形状的需求。

该模型利用了一种名为Meta Momentum Human Rig (MHR)的新型开源 3D 网格格式,通过分离人体骨骼结构和软组织形状提高可解释性。

基于 Transformer 编码器-解码器架构,模型可以预测 MHR 网格参数——图像编码器采用多输入设计来捕捉人体部位的高分辨率细节,而网格解码器则扩展以支持基于提示的预测。

SAM 3D Body 利用大规模、高质量数据和稳健的训练策略,提供精准且鲁棒的 3D 人体姿态和形状估计。

研究人员构建了一个包含数十亿张图像的大型数据集,并使用可扩展的自动化数据引擎挖掘高价值图像。他们构建了一个包含约800 万张图像的高质量训练数据集,用于训练模型,使其能够应对遮挡、罕见姿态和各种服装。

下一步,研究团队表示会将人、物体和环境之间的交互纳入模型训练。还会继续提升手部姿态估计的性能,目前其准确率仍不及专门的手部姿态估计方法。

参考资料:

https://ai.meta.com/blog/sam-3d/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=sam


【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1268.html