AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍
创始人
2025-07-08 14:00:57

新智元报道

编辑:海狸 英智

【新智元导读】 刷到1分钟AI短视频别只顾着点赞,背后的算力成本让人惊叹。MIT和英伟达等提出的径向注意力技术让长视频生成成本暴降4.4倍,速度飙升3.7倍,AI视频的未来已来!

刷到1分钟的AI生成短视频时,你可能想象不到背后的算力成本。

传统的视频扩散模型,处理视频时采用密集注意力机制。

这种方法虽然能保证画质,但计算量大得吓人,生成10秒视频就要烧掉数千元算力费用,随着视频长度增加,算力需求呈指数级飙升。

最近,MIT英伟达等研究人员发明的「径向注意力」技术,不仅让长视频生成速度提升3.7倍,还能把训练成本砍掉4.4倍。

论文链接:https://www.arxiv.org/abs/2506.19852

代码链接:

https://github.com/mit-han-lab/radial-attention/

径向注意力

在扩散模型的加持下,高质量视频生成逐渐从科幻变成现实。

但视频的时间维度给算力增加了不少负担,导致训练和推理长视频的成本飙升。

生成10秒视频就要烧掉数千元算力费用,价格之高令人望而却步。

对此,团队从热力学借了点灵感:没有任何传播是无损的;信号、影响、注意力都会随着距离衰减。

他们发现视频扩散模型里的注意力分数同样遵循这个规律——softmax后的权重随着token间的空间和时间距离递减。

这种时空能量衰减现象与自然界信号的物理衰减不谋而合。

这会不会就是视频生成降本增效的关键?

为进一步证实这种猜想,团队提出了径向注意力(Radial Attention):一种计算复杂度仅为O(nlog n)的稀疏注意力机制。

区别于之前SVG每次推理对空间/时间注意力进行动态选择,径向注意力用的是一种统一且高效的静态掩码。

这种掩码把空间和时间注意力合二为一,带来了更灵活、更快的长视频生成体验。

而且,这种简洁的静态注意力掩码让每个token只关注附近空间的邻居。随着时间距离的拉长,注意力窗口逐渐收缩。

相比传统的O (n²)密集注意力,径向注意力不仅大幅提升了计算效率,还比线性注意力拥有更强的表达能力。

在这项注意力机制创新的加持下,高质量视频生成变得更快、更长。

训练和推理的资源消耗极大地降低,为视频扩散模型打开了新的可能。

效果有多惊艳?实测数据来说话

研究团队在三个主流模型上做了测试:HunyuanVideo、Wan2.1-14B和Mochi 1,覆盖了不同参数规模的场景。

Mochi 1可以生成长达5秒、480p分辨率、162帧的视频;HunyuanVideo可以生成长达5秒、720p分辨率、125帧的视频;Wan2.1-14B可以生成长达5秒、720p分辨率、81帧的视频。

速度提升1.9倍到3.7倍

在默认视频长度下(如HunyuanVideo的117帧),径向注意力能把推理速度提升1.9倍左右。

当视频长度扩展到4倍时,速度提升更明显:从2895秒(近50分钟)降到781秒(约13分钟),足足快了3.7倍!

以前一小时才能生成的视频,现在喝杯咖啡的功夫就搞定了。

表1展示了在HunyuanVideo和Wan2.1-14B的默认生成长度下,径向注意力与三个强稀疏注意力基线的比较。

在相同的计算预算(以TFLOPs衡量)下,径向注意力保留了密集注意力的视频质量,同时在相似性指标(PSNR、SSIM、LPIPS)上始终优于STA和PA,并与SVG的质量相匹配。

在单个H100上,径向注意力为HunyuanVideo和Wan 2.1分别实现了1.9倍和1.8倍的端到端加速,与理论计算预算节省(1.8倍和1.7倍TFLOPs)相匹配。

尽管STA通过使用 FlashAttention-3(FA-3)产生了略高的加速,但视觉质量明显下降。

训练费用最多节省4.4倍

长视频生成最烧钱的其实是训练阶段。用径向注意力配合LoRA微调技术,训练成本直接大幅下降。

对于企业来说可是天大的好消息,以前做一个长视频项目可能要投入几十万,现在可能只需要几万块。

表2提供了2倍和4倍原始长度的视频生成结果。为了确保公平性,所有稀疏注意力基线使用相似的稀疏率。

当生成长视频时,未经进一步调优的原始模型表现出显著的质量退化,尤其是在4倍视频长度扩展时。

虽然RIFLEx在2倍长度外推时提高了性能,但其质量在此之后恶化,表明扩展能力有限。

空间和时间稀疏注意力受到有限感受野的影响;另一方面,LongLoRA和PA虽然具有全局感受野,但未能捕捉时空相关性,导致质量下降。

有趣的是,PA在微调后视觉奖励有很大提高,表明其原始稀疏模式与预训练的注意力分布不一致。

微调允许模型适应施加的注意力稀疏性,改善对齐和质量。

SANA将softmax注意力替换为线性注意力,需要大规模重新训练,并且在基于微调的视频长度扩展下失败。

相比之下,径向注意力实现了与LoRA微调密集注意力模型相当的质量。甚至在默认视频长度下,比预训练模型略微提高了视觉奖励。

由于O(nlog n)复杂度,径向注意力比原始密集注意力提供了显著的推理和训练加速,如表2和图2所示。

生成4倍长的视频时,可以节省高达4.4倍的训练成本,并实现高达3.7倍的推理加速。

最关键的是,速度和成本降下来了,画质还没缩水。

在HunyuanVideo上,径向注意力的PSNR值达到27.3,和原始模型基本持平;视觉奖励分数0.134,甚至比密集注意力的0.133还高一点点。

不只是快:

径向注意力的「隐藏技能」

很多技术升级都需要重新训练模型,但径向注意力不需要。

它可以直接应用在预训练好的模型上,通过简单的 LoRA 微调就能实现加速。

径向注意力的一个关键优势是与预训练的特定任务LoRA(如艺术风格迁移)的无缝兼容性,这对创作者太友好了。

如图8所示,将扩展长度LoRA与现有风格LoRA结合使用,在实现长视频生成的同时保留了视觉质量。

研究团队还观察到,合并LoRA生成的内容风格与原始LoRA略有不同。

这种差异主要归因于用于训练扩展长度LoRA的相对较小的数据集,这可能引入轻微的风格偏差,与风格LoRA相互作用。

在更全面的数据集上训练长度扩展LoRA,预计将有助于缓解这个问题。

以前生成1分钟的AI视频是很多中小团队不敢想的,现在径向注意力让这事变得可行了。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

第十二届知乎新知青年大会 见证... 本报讯 (记者梁傲男)5月16日,第十二届新知青年大会在北京798艺术区盛大启幕。大会包含2场主论坛...
传奇太阳能飞机坠海:翼展超波音... 1999 年 3 月,瑞士心理医生贝特朗·皮卡尔(Bertrand Piccard)与英国飞行员布莱...
市委常委,任大学党委书记!顶尖... ,容易找不到一读的文章,大家记得把一读EDU哦~ 01 顶尖科学家归国,加盟985! 据同济大学工程...
法国文化部长:今后不会资助“用... 新华社巴黎5月16日电(记者张百慧)法国文化部长卡特琳·佩加尔16日在第79届戛纳电影节期间表示,国...
维谛申请热管理系统中的多网关协... 国家知识产权局信息显示,维谛公司申请一项名为“热管理系统中的多网关协调”的专利,公开号CN12205...
以微观触达提升国际传播实效 微观触达,是国际传播中以真实个体为叙事起点,依托生活化场景、人格化主体与情感化表达,跨越文化壁垒,实...
人机协同破解老龄化难题,AI赋... 厦门:探索延长“健康寿命”新路径 近日,厦门市思明区数智运动促进健康中心在厦港街道党群服务中心正式揭...
AI微短剧会替代真人剧垄断市场... 原标题:AI赋能,微短剧更应向“心”生长(文化中国行·人文观察·文化强国建设系列调研①) 制作中...
中兴通讯申请数据传输方法专利,... 国家知识产权局信息显示,中兴通讯股份有限公司申请一项名为“数据传输方法、存储介质、电子装置及计算机程...
LLC磁集成变压器厂家梳理 适... 导语:在新能源光伏储能、工业控制等高增长领域,LLC磁集成变压器作为电源系统的核心部件,其性能直接影...