AIPress.com.cn报道
2月6日消息,YouTube 近日宣布,已对其自动化 AI 配音功能进行升级,新增名为 “Expressive Speech(情绪化语音)” 的表达能力,支持英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语和西班牙语八种语言。
该功能旨在改善此前 AI 配音“语调生硬、缺乏情绪”的问题。YouTube 的自动 AI 配音功能自 2025 年 6 月起向数百万创作者自动开放,但上线初期因配音听感偏“机器人化”,曾引发创作者和用户的广泛争议。
YouTube 配音产品负责人 Buddhika Kottahachchi 表示,Expressive Speech 功能由 YouTube 与 Google DeepMind 联合研发,通过分析原始视频中的音高、语调、节奏和能量等特征,并将这些元素映射到自动配音中,使配音效果更加自然、真实,更接近人类表达方式。
除语音表现升级外,YouTube 还同步推出了 Automatic Smart Filtering(自动智能过滤) 功能,用于识别不适合进行 AI 配音的视频内容,例如纯音乐视频或无对白的 Vlog,从而避免不必要的自动配音,提升整体体验。
在可发现性方面,YouTube 表示,AI 配音不会影响原始视频在平台内的推荐与搜索表现,同时有助于视频在其他语言用户中的曝光和发现。
考虑到部分用户对自动配音的偏好差异,YouTube 也引入了 Preferred Language(偏好语言) 设置,允许观众选择始终以原始语言观看视频,而不默认切换至 AI 配音版本。此外,平台也进一步强化创作者控制权,支持创作者自行上传多语言音轨,替代或补充 AI 配音。
YouTube 表示,此次更新是其“赋予创作者充分自主权”承诺的一部分,在扩展 AI 能力的同时,保留人工干预和选择空间。
数据显示,当前自动配音视频的平均观看时长约为原语言视频的 75%,表明非母语观众对自动配音内容具有较高的参与度。
Kottahachchi 还透露,YouTube 计划在未来将 Expressive Speech 功能扩展至更多语言,并推进 自动口型同步(lip sync) 技术,该功能目前已进入小范围创作者测试阶段。(AI普瑞斯编译)