刚刚,X 上的一篇推文分享了关于 Meta SAM 3 的论文。该论文已被投稿至 ICLR 2026。
SAM 是 Meta 提出的“分割一切”模型。该模型于 2023 年 4 月公开,在自然语言和视觉领域中表现出较强的性能。
这次推出的 SAM 3 是一个统一模型,它基于概念提示来检测、分割和跟踪图像和视频中的对象。
可提示概念分割 (PCS) 可为所有匹配的对象实例返回分割掩码和唯一标识。为了改进 PCS,团队构建了一个可扩展的数据引擎,该引擎能够生成一个包含 400 万个唯一概念标签的高质量数据集,涵盖图像和视频。
SAM 3 在图像和视频 PCS 方面比现有系统提升了 2 倍,并在交互式视觉分割任务中提升了先前 SAM 的性能。
目前,SAM 3 以及全新的“带概念的任意分割 (SA-Co)”基准测试已在各大平台上开源。
可提示分割
SAM 3 是 SAM 2 的推广,支持新增的 PCS 任务以及 PVS 任务。它使用概念提示(简单名词短语、图像样本)或视觉提示(点、框、蒙版)来定义需要(单独)进行时空分割的对象。
SAM 3 的架构是由一个双编码器-解码器转换器组成,该转换器与跟踪器和视频存储器结合使用。检测器和跟踪器从对齐的感知编码器 (PE) 主干网络获取视觉语言输入。
团队构建一个高效的数据引擎,该引擎通过 SAM 3、人工注释者和 AI 注释者的反馈循环迭代生成带注释的数据,并主动挖掘当前 SAM 3 版本无法生成高质量训练数据的媒体短语对,以便进一步改进模型。该引擎使吞吐量提高了一倍以上。
训练分为四个阶段:
第一阶段: 人工验证。首先,通过随机采样图像进行数据挖掘,并使用简单的字幕器和解析器进行名词短语提议。
第二阶段:人机协同验证。利用第一阶段收集的 MV 和 EV 任务中人为接受/拒绝的标签,对 Llama 3.2 进行微调,从而创建 AI 验证器来自动执行 MV 和 EV 任务。
第三阶段:规模化和领域扩展。使用 AI 模型挖掘日益复杂的案例,并将 SA-Co/HQ 的领域覆盖范围扩展至 15 个数据集。
第四阶段:视频标注。此阶段将数据引擎扩展到视频领域。
实验结果
团队对 SAM 3 进行了图像/视频分割、小样本自适应检测和计数基准测试,以及使用 SAM 3 + MLLM 进行复杂语言查询分割的评估。
结果显示,零样本 SAM 3 在封闭词汇 COCO、COCO-O 和 LVIS 边界框上均具有竞争力,并且在 LVIS 掩码上表现更佳。
在开放词汇 SA-Co/Gold 上,SAM 3 的 CGFscore 是最强基准 OWLv2 的两倍,并且达到了人类表现预估下限的 88%。
在 ADE-847、PascalConcept-59 和 Cityscapes 数据集上的开放词汇语义分割结果表明,SAM 3 的表现优于强大的专业基准 APE。
与 MLLM 相比,SAM 3 不仅实现了良好的物体计数准确率,而且还提供了大多数 MLLM 无法提供的对象分割功能。
在文本提示的视频 PCS 的基准测试中,SAM 3 表现出色,尤其是在包含大量名词短语的基准测试集上。
SAM 3 在大多数基准测试中都比 SAM 2 取得了显著的改进,尤其是在具有挑战性的 MOSEv2 数据集上,SAM 3 的表现比先前的研究高出 6 个点。对于交互式图像分割任务,SAM 3 在平均 mIoU 方面优于 SAM 2。
论文的主要贡献包括:
1. 引入了 PCS 任务和 SA-Co 基准。
2. 提出了一种解耦的识别-定位架构,在保留 PVS 功能的同时扩展了 SAM 2 的 PCS 功能。
3. 开发了一个高质量、高效的人工和 AI 注释器循环数据引擎。
研究人员表示,SAM 3 和 SA-Co 基准将成为重要的里程碑,为计算机视觉领域未来的研究和应用铺平道路。
参考资料:
https://openreview.net/pdf?id=r35clVtGzw
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1176.html
