阿里通义万相Wan2.2-S2V：静态图+音频，电影级数字人视频一键生成！_资讯

创始人

2025-08-28 16:44:52

阿里巴巴在人工智能领域的又一重大突破近日震撼发布——通义万相宣布其多模态视频生成模型Wan2.2-S2V正式开源。这项创新技术令人瞩目，仅凭一张静态图片和一段音频，即可生成面部表情栩栩如生、口型与音频同步、动作流畅的电影级数字人视频。

Wan2.2-S2V模型的单次视频生成时长可达分钟级别，这一显著进步预示着数字人直播、影视后期制作及AI教育等多个行业将迎来视频创作效率的大幅提升。目前，该模型已在通义万相官网、Hugging Face及魔搭社区等平台开放试用，开发者与行业用户均可免费体验。

阿里在视频生成领域的探索之旅可谓硕果累累。早在7月28日，阿里便已开源Wan2.2系列模型，涵盖文生视频、图生视频及统一视频生成。尤为文生视频和图生视频模型作为业界首采MoE架构的视频生成模型，树立了新的行业标准。

时隔仅半个月，阿里再次发力，推出Wan2.2-I2V-Flash模型，其推理速度较之前版本提升了12倍，进一步降低了使用门槛。此次发布的Wan2.2-S2V模型，则更加注重音频与图像的深度融合，通过先进的音频驱动技术，实现了画面与音频的精准同步。

在实际应用中，Wan2.2-S2V展现出了卓越的性能。无论是真人、卡通、动物还是数字人形象，只需上传一张图片和一段音频，模型便能迅速生成生动的视频。视频中的角色能够自然地进行说话、唱歌、表演等多种动作，面部表情和口型与音频高度一致。

Wan2.2-S2V还支持不同分辨率的视频生成，无论是竖屏短视频还是横屏影视剧，均能轻松驾驭。该模型引入了AdaIN和CrossAttention两种控制机制，使得音频控制效果更加精准、动态。

在一次测试体验中，笔者上传了一张动画人物图片，并输入了一段文字指令，要求画面中的角色唱歌。结果令人赞叹，动画人物不仅动作流畅，还自行配上了背景音乐，尽管嘴巴线条的识别仍有提升空间，但整体效果已相当惊艳。

随后，笔者又尝试上传了一张欧美男生的照片和一段中文音频。生成的视频中，人物形象与原图高度吻合，面部表情和嘴部动作与音频完美同步，甚至脸上的光影变化都与嘴形变化相协调，充分展示了Wan2.2-S2V的强大生成能力。

随着数字人直播、影视制作等行业的蓬勃发展，对高效视频创作工具的需求愈发迫切。阿里通义万相此次推出的Wan2.2-S2V模型，无疑为解决这一需求提供了强大的技术支持。这一创新成果，无疑将进一步推动视频生成领域的快速发展。

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。