讯飞星火多模态交互大模型上线,数字人/语音/视觉支持一键全调用
创始人
2024-11-14 20:21:44

IT之家 11 月 14 日消息,“讯飞开放平台”公众号今天傍晚宣布,讯飞星火多模态交互大模型正式上线,其实现从语音交互拓展到音视频流实时多模交互,新增“多模态、超拟人和个性化”能力,实现语音、视觉、数字人交互三合一,支持一键调用。

据介绍,讯飞星火多模态交互大模型首发超拟人数字人技术,数字人躯干和四肢动作能够精准匹配语音内容,快速生成表情和动作,令 AI“栩栩如生”。通过统一文本、语音和表情,能够实现跨模态的语义一致性,从而使大模型情感表达真实连贯。

其支持超拟人极速交互,采用统一神经网络直接实现语音到语音的端到端建模,响应更快速、流畅,可敏锐感知情绪变化,也可根据指令自由变换声音的节奏、大小和人设

其支持多模态视觉交互,能够“听懂世界”“认清万物”,更全面感知具体背景场景、物流状态等信息,对任务的理解更加精准,并通过语音、手势、行为、情绪等进行综合判断,作出合适的回复。

据IT之家此前报道,用户可与数字人进行语音、视频通话,数字人可实现与用户的自然语音对话,人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互,可让数字人识别摄像头中的内容,比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

法国文化部长:今后不会资助“用... 新华社巴黎5月16日电(记者张百慧)法国文化部长卡特琳·佩加尔16日在第79届戛纳电影节期间表示,国...
维谛申请热管理系统中的多网关协... 国家知识产权局信息显示,维谛公司申请一项名为“热管理系统中的多网关协调”的专利,公开号CN12205...
以微观触达提升国际传播实效 微观触达,是国际传播中以真实个体为叙事起点,依托生活化场景、人格化主体与情感化表达,跨越文化壁垒,实...
人机协同破解老龄化难题,AI赋... 厦门:探索延长“健康寿命”新路径 近日,厦门市思明区数智运动促进健康中心在厦港街道党群服务中心正式揭...
AI微短剧会替代真人剧垄断市场... 原标题:AI赋能,微短剧更应向“心”生长(文化中国行·人文观察·文化强国建设系列调研①) 制作中...
中兴通讯申请数据传输方法专利,... 国家知识产权局信息显示,中兴通讯股份有限公司申请一项名为“数据传输方法、存储介质、电子装置及计算机程...
LLC磁集成变压器厂家梳理 适... 导语:在新能源光伏储能、工业控制等高增长领域,LLC磁集成变压器作为电源系统的核心部件,其性能直接影...
兰州银行招标结果:兰州银行新一... 证券之星消息,根据天眼查APP-财产线索数据整理,兰州银行股份有限公司5月13日发布《兰州银行新一代...
2026年5月新发布:深圳小班... 引言:市场趋势与选择挑战 步入2026年,深圳的K12课外培训市场在持续规范中展现出新的结构性变化。...
36氪首发 | 宠物健康大模型... 作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,宠物大模型健康公司重庆绮算法科技有限公司(以下简称“绮...