近日,清华大学 TSAIL 团队联手生数科技提出了一种名为 TurboDiffusion 的视频生成加速框架,它能够在保持视频质量的前提下,将端到端扩散生成速度提升100-200 倍。
TurboDiffusion 主要依靠以下几个组件来实现加速:
注意力加速:TurboDiffusion 使用低比特率的 SageAttention 和可训练的稀疏线性注意力机制 (SLA) 来加速注意力计算。
步骤蒸馏:TurboDiffusion 采用 rCM 算法进行高效的步骤蒸馏。
W8A8 量化:TurboDiffusion 将模型参数和激活值量化为 8 位,以加速线性层并压缩模型。
TurboDiffusion 主要使用 SageAttention 、 SLA(稀疏线性注意力) 进行注意力加速,以及 rCM 进行时间步蒸馏。
这是使用单块 RTX 5090 显卡,通过 Wan-2.1-T2V-1.3B-480P 生成的 5 秒视频示例:
通过算法和系统协同优化,TurboDiffusion 在单个 RTX 5090 上将 Wan2.1-T2V-14B-720P 的扩散推理延迟降低了约 200 倍。
方法论
TurboDiffusion 主要采用四种技术来加速扩散模型。
TurboDiffusion 使用 SageAttention 进行低比特量化注意力加速。
TurboDiffusion 使用 Sparse-Linear Attention (SLA) 进行稀疏注意力加速。
TurboDiffusion 使用 rCM 来减少采样步数,rCM 是目前最先进的扩散蒸馏方法之一。通过模型权重合并,rCM 自然地继承了注意力层面的加速。
TurboDiffusion 使用 W8A8量化进行线性层加速。
在培训过程中,TurboDiffusion 根据给定预训练的视频扩散模型,执行以下训练过程。
首先,将完全注意力机制替换为稀疏线性注意力机制 (SLA),并对预训练模型进行微调以适应稀疏性。
同时,使用 rCM 将预训练模型提炼为一个采样步数更少的学生模型。其次,将 SLA 微调和 rCM 训练得到的参数更新合并到一个模型中。所有训练过程均可使用真实数据或合成数据。
评估
Wan2.2-I2V-A14B-720P
使用单个 RTX 5090 在 Wan2.2-I2V-A14B-720P 上生成 5 秒视频:
“第一人称视角自拍视频,超级凌乱,速度极快。一只戴着墨镜的白猫面无表情地站在冲浪板上,突然冲浪板猛地侧甩,将猫和相机一起甩入水中;画面急剧下沉,被剧烈的气泡、旋转的湍流和模糊的水痕吞噬,相机也随之下沉。阴影加深,水压波纹扭曲了边缘,松散的气泡从镜头前涌出,显示相机仍在下沉。然后,猫以惊人的速度向上踢水,拖着画面穿过翻腾的气泡和迅速变亮的水面,阳光重新涌入;相机飞速上升,水花从镜头上飞溅,最终在一阵强光和水花中冲出水面,画面瞬间恢复成一张歪斜而慌乱的自拍,而猫也重新浮出水面。
使用单个 RTX 5090 在 Wan2.2-I2V-A14B-720P 上生成 5 秒视频:
“乌玛·瑟曼饰演的碧翠丝·基多在电影般的灯光下稳稳地握着她锋利的武士刀。毫无预兆地,整把刀瞬间失去刚性,材质如同不稳定的液体般颤抖。刀身表面完全失稳——一块块金属缓缓脱落,化作涓涓细流般的熔银,滴滴向下流淌。片刻之后,刀身变成一团坍塌的、无定形的金属,没有棱角,也没有结构。浓稠的液态金属从她手中倾泻而出,随后是片片闪烁的液体撕裂开来,落到地上。她手中现在只剩下一团颤抖的、如同水银般的液体,不断下垂滴落。随着最后一点固体残存的物质溶解、撕裂、从她指间流淌,她的表情从平静的准备转变为震惊和困惑,她变得毫无防备,茫然无措。
Wan2.1-T2V-1.3B-480P
使用单个 RTX 5090 在 Wan2.1-T2V-1.3B-480P 上生成 5 秒视频:
“镜头围绕着一大堆老式电视机旋转,这些电视机都在播放不同的节目——20 世纪 50 年代的科幻电影、恐怖电影、新闻、雪花屏、20 世纪 70 年代的情景喜剧等等,场景设置在纽约一家大型博物馆的展厅内。
使用单个 RTX 5090 在 Wan2.1-T2V-1.3B-480P 上生成 5 秒视频:
“一个 3D 教室场景,里面坐满了 6 到 8 岁的小朋友,他们都专注地坐在各自的课桌前。一位尽职尽责的老师站在讲台前,与学生们进行着生动的互动,用手势和面部表情传递着热情。教室里灯光明亮,墙上贴满了色彩鲜艳的海报和图表。每个孩子都全神贯注,有的点头附和,有的举手提问。课桌整齐地排列成行,每张桌子上都摆放着书本和铅笔。背景中有一扇窗户,阳光透过窗户洒进来,在教室里投下柔和的光影。这是一个广角镜头,从正面视角展现了整个教室。
Wan2.1-T2V-14B-720P
使用单个 RTX 5090 在 Wan2.1-T2V-14B-720P 上生成 5 秒视频:
“在都市户外,一位身穿黑色连帽衫和白色条纹黑色运动裤的男子走向一座现代建筑旁的长椅,该建筑拥有巨大的落地玻璃窗。他肩上挎着一个黑色背包,手里拿着一叠文件。走到长椅前,他弯下腰,将文件放在上面,然后坐了下来。不久,一位身穿红色夹克(饰有黄色点缀)和黑色裤子的女子走了过来。她站在长椅旁,面对着他,似乎在与他交谈。男子继续翻阅文件,女子则认真地倾听。背景中,可以看到其他人走过,有些人提着包,为这熙熙攘攘却又轻松随意的场景增添了几分氛围。整体氛围暗示着在繁忙的环境中,他们正在进行一场专注的讨论或准备工作。
Wan2.1-T2V-14B-480P
使用单个 RTX 5090 在 Wan2.1-T2V-14B-480P 上生成 5 秒视频:
“一名手持火把的《我的世界》玩家角色进入一个巨大的地下洞穴。火把的光芒在嶙峋的石壁上摇曳,照亮了嵌在岩石中的铁矿和钻石矿。钟乳石从洞顶垂下,附近有熔岩流淌成闪亮的溪流,洞穴中回荡着微弱的滴水声。
相关人员表示,未来将计划扩展此框架以支持更多视频生成范式,例如自回归视频扩散。
参考资料:
https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf
https://github.com/thu-ml/TurboDiffusion
【免责声明】本站所刊内容仅代表作者本人观点,与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权,请联系我们删除。
本文地址:http://www.jiqiren.org.cn/tt/1373.html
