机器人产业网

谢赛宁团队新作:空间结构才是 iREPA 的关键

2025-12-20 11:04:59 浏览:381
导读: 近日,谢赛宁团队又创新作,灵感竟来源于 4 个多月前一次与网友的辩论。这位网友表示,自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而不是 [CLS] token所代表的全局分类性能。谢赛宁则表示,使用...

近日,谢赛宁团队又创新作,灵感竟来源于 4 个多月前一次与网友的辩论。

这位网友表示,自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而不是 [CLS] token所代表的全局分类性能。

谢赛宁则表示,使用 patch token 并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱的关联。这并不是 [CLS] token 的问题,而是高层语义与低层像素相似性之间的差别。

但仅三个月后,他随机表示自己的判断不够深入,新论文 iREPA 的研究带来了更深度的理解。

谢赛宁在 X 平台上表示,扩散模型是其底层表征的渲染器。这套新的方案可以帮助大家更清晰地了解这些表征的真正含义

他称这场讨论为“新型网络茶水间效应的小实验”,大家一起辩论、讨论,然后努力把它变成真正的科学研究。

空间结构至关重要

表征对齐(REPA)通过将来自强大的预训练视觉编码器的表征提炼为中间扩散特征,来指导生成式训练。

在这之前,我们需要关注一个问题:目标表征的哪个方面对生成至关重要?是其全局语义信息,还是其空间结构?

普遍观点认为,更强的全局语义性能能够带来更好的生成效果。为了验证这一观点,团队首先对 27 种不同的视觉编码器和不同模型规模进行了大规模的实证分析。

团队发现,虽然 PE-Core-G 在 ImageNet-1K 上的准确率高达82.8%,但当用作 REPA 的目标表示时,其性能却更差。

除此之外,同一编码器系列中较大的型号可能具有相似或更差的生成性能。对于表征对齐而言,较大的模型变体往往会导致相似(DINOv2)甚至更差的生成性能。

也就是说,更高的全局信息量并不意味着更好的 REPA 性能。多项趋势表明,在使用 REPA 时,全局性能与生成 FID 的相关性并不高。

比如,仅验证准确率达到 24.7% 的 SAM2-S,在使用 REPA 时,其生成性能优于其他验证准确率高出约 60% 的模型

同一编码器家族中,较大的编码器可能具有更高的验证准确率,但生成性能却更差。

通过 CLS 标记向 patch 标记添加全局信息可以提高全局性能,但会降低生成性能

研究证明,空间结构而非全局性能是生成性能的更好指标。

研究还表明,空间结构与发电性能的相关性远高于线性探测。

在不同的模型尺度上,空间结构与 gFID 的相关性始终高于线性探测。

iREPA 改进表述一致性

研究人员对原始的 REPA 训练方案进行了两项直接的修改,从而增强了空间特征从教师(视觉编码器)到学生(扩散变换器)模型的迁移。

一个是使用卷积投影层代替多层感知器(MLP)。团队用一个轻量级的卷积层代替 MLP,该卷积层直接作用于空间网格。

REPA 中的标准 MLP 投影层在将目标表示的特征迁移到扩散特征时会丢失空间信息,而使用更简单的卷积层则可以更好地迁移空间信息。

第二是运用空间归一化层,向目标表示的图像块标记添加了一个简单的空间归一化层。通过牺牲全局信息来提高图像块标记之间的空间对比度,从而获得更好的生成性能。

结果显示,在目标表示和模型规模的变化下,iREPA 始终比基线 REPA具有更快的收敛速度,且在所有视觉编码器上均能持续提升生成质量。

空间改进不仅持续提升性能,而且模型规模越大,性能提升的百分比也越大;这表明空间改进能够随着模型规模的增大而扩展。

在消融实验中,空间归一化层和卷积投影层均能显著提高收敛速度,两者结合使用效果最佳。

总而言之,团队在 REPA-E 和 MeanFlow w/ REPA 的基础上应用了空间改进,并取得了一致的性能提升。

参考资料:

https://x.com/sainingxie/status/2000709656491286870

https://arxiv.org/abs/2512.10794

https://x.com/YouJiacheng/status/1957073253769380258

【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1337.html