谢赛宁团队新作：空间结构才是 iREPA 的关键-机器人产业网

导读：近日，谢赛宁团队又创新作，灵感竟来源于 4 个多月前一次与网友的辩论。这位网友表示，自监督学习（SSL）模型应该专门为稠密任务（如REPA、VLM等）进行训练，因为这些任务真正依赖的是patch tokens中的空间和局部信息，而不是 [CLS] token所代表的全局分类性能。谢赛宁则表示，使用...

近日，谢赛宁团队又创新作，灵感竟来源于 4 个多月前一次与网友的辩论。

这位网友表示，自监督学习（SSL）模型应该专门为稠密任务（如REPA、VLM等）进行训练，因为这些任务真正依赖的是patch tokens中的空间和局部信息，而不是 [CLS] token所代表的全局分类性能。

谢赛宁则表示，使用 patch token 并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关，而与patch级别的对应关系只有很弱的关联。这并不是 [CLS] token 的问题，而是高层语义与低层像素相似性之间的差别。

但仅三个月后，他随机表示自己的判断不够深入，新论文 iREPA 的研究带来了更深度的理解。

谢赛宁在 X 平台上表示，扩散模型是其底层表征的渲染器。这套新的方案可以帮助大家更清晰地了解这些表征的真正含义

他称这场讨论为“新型网络茶水间效应的小实验”，大家一起辩论、讨论，然后努力把它变成真正的科学研究。

空间结构至关重要

表征对齐（REPA）通过将来自强大的预训练视觉编码器的表征提炼为中间扩散特征，来指导生成式训练。

在这之前，我们需要关注一个问题：目标表征的哪个方面对生成至关重要？是其全局语义信息，还是其空间结构？

普遍观点认为，更强的全局语义性能能够带来更好的生成效果。为了验证这一观点，团队首先对 27 种不同的视觉编码器和不同模型规模进行了大规模的实证分析。

团队发现，虽然 PE-Core-G 在 ImageNet-1K 上的准确率高达82.8%，但当用作 REPA 的目标表示时，其性能却更差。

除此之外，同一编码器系列中较大的型号可能具有相似或更差的生成性能。对于表征对齐而言，较大的模型变体往往会导致相似（DINOv2）甚至更差的生成性能。

也就是说，更高的全局信息量并不意味着更好的 REPA 性能。多项趋势表明，在使用 REPA 时，全局性能与生成 FID 的相关性并不高。

比如，仅验证准确率达到 24.7% 的 SAM2-S，在使用 REPA 时，其生成性能优于其他验证准确率高出约 60% 的模型。

同一编码器家族中，较大的编码器可能具有更高的验证准确率，但生成性能却更差。

通过 CLS 标记向 patch 标记添加全局信息可以提高全局性能，但会降低生成性能。

研究证明，空间结构而非全局性能是生成性能的更好指标。

研究还表明，空间结构与发电性能的相关性远高于线性探测。

在不同的模型尺度上，空间结构与 gFID 的相关性始终高于线性探测。

iREPA 改进表述一致性

研究人员对原始的 REPA 训练方案进行了两项直接的修改，从而增强了空间特征从教师（视觉编码器）到学生（扩散变换器）模型的迁移。

一个是使用卷积投影层代替多层感知器（MLP）。团队用一个轻量级的卷积层代替 MLP，该卷积层直接作用于空间网格。

REPA 中的标准 MLP 投影层在将目标表示的特征迁移到扩散特征时会丢失空间信息，而使用更简单的卷积层则可以更好地迁移空间信息。

第二是运用空间归一化层，向目标表示的图像块标记添加了一个简单的空间归一化层。通过牺牲全局信息来提高图像块标记之间的空间对比度，从而获得更好的生成性能。

结果显示，在目标表示和模型规模的变化下，iREPA 始终比基线 REPA具有更快的收敛速度，且在所有视觉编码器上均能持续提升生成质量。

空间改进不仅持续提升性能，而且模型规模越大，性能提升的百分比也越大；这表明空间改进能够随着模型规模的增大而扩展。

在消融实验中，空间归一化层和卷积投影层均能显著提高收敛速度，两者结合使用效果最佳。

总而言之，团队在 REPA-E 和 MeanFlow w/ REPA 的基础上应用了空间改进，并取得了一致的性能提升。

参考资料：

https://x.com/sainingxie/status/2000709656491286870

https://arxiv.org/abs/2512.10794

https://x.com/YouJiacheng/status/1957073253769380258

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1337.html

空间结构至关重要

iREPA 改进表述一致性

相关文章