当今的去噪扩散模型并非传统意义上的“去噪”。
它们并不直接预测干净的图像。相反,神经网络预测的是噪声或带噪声的量。
ResNet 之父、麻省理工副教授何恺明新论文发现了这一问题。
预测干净数据和预测带噪声的量本质上是不同的。根据流形假设,自然数据应该位于低维流形上,而带噪声的量则不然。
基于此假设,何恺明提倡使用直接预测干净数据的模型,这使得看似容量不足的网络能够在高维空间中高效运行。
结果证明,简单的、基于像素的大块 Transformer 模型可以成为强大的生成模型:无需分词器、无需预训练,也无需额外的损失函数。
Just Image Transformers
整体架构是“图像变换器”(Just Image Transformer,简称 JiT)。他们研究了 256×256 图像上的 JiT/16(即图像块大小 p=16)以及 512×512 图像上的 JiT/32(p=32)。
实验证明,仅使用 x 预测,对像素进行操作的普通视觉变换器 (ViT) 就能出人意料地好用。
ViT 的核心思想是**基于补丁的转换器 (ToP)**。研究架构设计遵循这一理念。
研究人员总结了损失空间和预测空间的九种可能组合。对于每一种组合训练了一个基础模型(JiT-B),其每个标记的隐藏层大小为 768 维。
结果显示,当模型性能已经相当不错时,适当高的噪声是有益的。
在 x-prediction 的情况下,增加隐藏单元的数量并非必要。
网络设计可以很大程度上与观测到的维度无关,这在许多其他神经网络应用中也是如此。增加隐藏单元的数量可能是有益的,但这并非决定性的因素。
研究人员整合了一些常用的通用改进方法:SwiGLU、RMSNorm、RoPE 和 qk-norm,这些方法最初都是为语言模型开发的。他们还探索了上下文中的类条件化。
实验结果
在 ImageNet 256×256 的结果中,他们评估了 5 万个样本的 FID 和 IS。 “预训练”使用了预训练的 VGG 分类器。参数包括生成器和分词解码器,但不包括其他预训练组件。结果大致与训练和推理过程中每次迭代的计算成本成正比。
在 ImageNet 512×512 的结果显示,JiT 采用较大的图像块尺寸,并能以较小的计算量获得良好的结果。
尽管 v-prediction 似乎是 v-loss 的“原生”参数化方式,但其损失值却比 x-prediction **高出约 25%**。这一比较表明,由于数据位于低维流形上,x-prediction 的任务本质上更容易。
研究人员还观察到,?prediction 的损失值大约高出 3 倍,且不稳定。
虽然研究有意不使用任何额外的损失函数,然而,基于潜在变量的方法通常依赖于使用对抗损失和感知损失训练的分词器,因此它们的生成过程并非完全由扩散驱动。
在特定的 Transformer 模块(JiT-B 中的第 4 个模块和 JiT-L 中的第 8 个模块)之后附加一个分类器头。该分类器由全局平均池化层和线性层组成,并应用交叉熵损失函数来处理 1000 类 ImageNet 分类任务。
这一小的改动带来了不错的改进,他们将在未来的工作中探讨这个问题。
参考资料:
https://arxiv.org/pdf/2511.13720v1
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1270.html
