阿里通义万相Wan2.2-S2V:静态图+音频,电影级数字人视频一键生成!
创始人
2025-08-28 16:44:52

阿里巴巴在人工智能领域的又一重大突破近日震撼发布——通义万相宣布其多模态视频生成模型Wan2.2-S2V正式开源。这项创新技术令人瞩目,仅凭一张静态图片和一段音频,即可生成面部表情栩栩如生、口型与音频同步、动作流畅的电影级数字人视频。

Wan2.2-S2V模型的单次视频生成时长可达分钟级别,这一显著进步预示着数字人直播、影视后期制作及AI教育等多个行业将迎来视频创作效率的大幅提升。目前,该模型已在通义万相官网、Hugging Face及魔搭社区等平台开放试用,开发者与行业用户均可免费体验。

阿里在视频生成领域的探索之旅可谓硕果累累。早在7月28日,阿里便已开源Wan2.2系列模型,涵盖文生视频、图生视频及统一视频生成。尤为文生视频和图生视频模型作为业界首采MoE架构的视频生成模型,树立了新的行业标准。

时隔仅半个月,阿里再次发力,推出Wan2.2-I2V-Flash模型,其推理速度较之前版本提升了12倍,进一步降低了使用门槛。此次发布的Wan2.2-S2V模型,则更加注重音频与图像的深度融合,通过先进的音频驱动技术,实现了画面与音频的精准同步。

在实际应用中,Wan2.2-S2V展现出了卓越的性能。无论是真人、卡通、动物还是数字人形象,只需上传一张图片和一段音频,模型便能迅速生成生动的视频。视频中的角色能够自然地进行说话、唱歌、表演等多种动作,面部表情和口型与音频高度一致。

Wan2.2-S2V还支持不同分辨率的视频生成,无论是竖屏短视频还是横屏影视剧,均能轻松驾驭。该模型引入了AdaIN和CrossAttention两种控制机制,使得音频控制效果更加精准、动态。

在一次测试体验中,笔者上传了一张动画人物图片,并输入了一段文字指令,要求画面中的角色唱歌。结果令人赞叹,动画人物不仅动作流畅,还自行配上了背景音乐,尽管嘴巴线条的识别仍有提升空间,但整体效果已相当惊艳。

随后,笔者又尝试上传了一张欧美男生的照片和一段中文音频。生成的视频中,人物形象与原图高度吻合,面部表情和嘴部动作与音频完美同步,甚至脸上的光影变化都与嘴形变化相协调,充分展示了Wan2.2-S2V的强大生成能力。

随着数字人直播、影视制作等行业的蓬勃发展,对高效视频创作工具的需求愈发迫切。阿里通义万相此次推出的Wan2.2-S2V模型,无疑为解决这一需求提供了强大的技术支持。这一创新成果,无疑将进一步推动视频生成领域的快速发展。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

原创 中... 在中国城市经济的史诗级大洗牌中,GDP50强榜单如一场惊心动魄的马拉松,上海以56708.71亿的庞...
乌鲁木齐黄金回收实力品牌推荐:... 导语:黄金回收作为贵金属流通领域的关键环节,其价格透明度、检测准确性及服务规范性直接影响客户权益。在...
太空光伏概念龙头三连板 P型H... 财联社2月7日讯(编辑 若宇)太空光伏概念股持续活跃,协鑫集成周五收盘三连板,宇晶股份一度4天2板,...
忠诚保安取得多功能约束式防暴叉... 国家知识产权局信息显示,福建省忠诚保安服务集团有限公司取得一项名为“一种多功能约束式防暴叉”的专利,...
AI点外卖就是个伪需求 文 | 商隐社,作者 | 浩然 今天阿里千问APP“春节30亿免单”活动正式开启,用请全国人民喝奶...
热门赛道迎利好!上海,重磅宣布... 设立AI青年创业基金、工业机器人应用密度达600台每万人……上海宣布一系列目标。 上海市人民政府主题...
程序员返乡“数据种田” 在田间写代码,将农业生产变得可监测控制 程序员返乡“数据种田” 卢天培(前)介绍基地种出的黑色小...
冷凝水对助听器的影响及防护措施 冬天助听器突然无声,换了电池也无济于事;冷凝水渗入助听器内部会直接损坏精密电子元件与传声部件,具体影...
商务部:已拨付财政资金86亿元... 来源:经济观察网 经济观察网 据央视新闻客户端消息,在今天下午召开的国务院政策例行吹风会上,商务部相...