OpenAI发布实时API,AI实时语音时代如何抢占风口?
创始人
2024-10-10 19:41:44
0

10 月 2 日,OpenAI 发布了实时 API 公开测试版,用于构建基于 GPT-4o 语音到语音的 AI 应用和智能体。这是 GPT-4o 发布之后,OpenAI 在实时语音交互能力上的最新进展。

GPT-4o 所展现出的实时语音交互能力让外界印象深刻。而这很大程度上归功于 GPT-4o 大幅降低的语音延迟,平均 320 毫秒的反应时间,让 AI 与人的对话第一次接近了人类真实对话间的反应速率。同时其语气和情感模拟,也更加深 AI 与人类沟通之间的沉浸感。

而国庆假期间,OpenAI 发布的实时 API 公开测试版,则瞄准了 GPT-4o 语音到语音的 AI 应用和智能体,这像是给所以 AI 应用开发者的一个信号,大模型发展近两年后,基于声音的实时对话式 AI 场景或许会开始变的瞩目起来。

OpenAI 这次也公布了三家语音 API 合作者的身份:LiveKit、Twilio,以及 Agora。值得一提的是,前几年曾经爆火的 ClubHouse,背后的技术提供方就是 Agora,其兄弟公司声网则在国内更为人所知。Agora 聚焦美国和国际市场,声网则已经俨然是中国市场中 RTC(实时音视频,Real-time Communications)能力最头部且主要的提供者。

而当下实时对话式 AI 这场还未完全起势的浪潮背后,发展多年的 RTC 技术作为一项基础能力,已经逐渐靠近实时多模态大模型发展浪潮的核心。

01.RTC是实时多模态大模型的必由之路

无可置疑的,大模型能力的提升直接促进了端到端实时多模态大模型的崛起。

此前,实时对话中的语音处理是基于传统的三步骤——语音识别、语音转文字、文字转语音(STT-LLM-TTS)——方法来进行的。现在得益于大模型自身能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法相比,响应速度要提升很多,这也是为什么实时对话式 AI 的前景开始备受期待。

语音处理这个技术难题被攻下后,大模型领域的头部玩家们已经开始用脚投票了。

今年 6 月,Character AI 推出新的语音功能,用户可以与 AI 角色进行语音对话。这家人工智能聊天机器人初创公司表示,新的通话功能在推出初期就吸引了来自 300 多万用户的 2000 多万次通话。

Character AI 推出新语音功能几天后,微软 AI 负责人 Mustafa Suleyman 透露微软将在今年年底为用户拿出实时的语音界面,允许完全动态的交互。

而在国内的大模型领域,智谱 AI 8 月末在智谱清言中上线了国内首个面向 C 端的视频通话功能,该功能让用户能够通过应用程序进行语音和视频互动,整个体验类似于与真人对话。用户不仅可以使用手机的前置或后置摄像头进行视频通话,还能进行语音交互。这项功能特别适合在日常生活中的各种场景应用,比如协助学习、辨识物品等。

而在智谱清言新功能上线同日,科大讯飞星火极速超拟人交互技术也正式上线讯飞星火 APP,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。

电影《Her》中的场景,似乎真的要成真了。但 GPT-4o 进一步打开实时对话式 AI 的想象力所给人带来的启示,或许是我们仍然低估了「实时」在交互体验上的重要性。

实时对话式 AI 中,「实时」与「AI」一样重要,甚至作为一场与 AI 的对话体验中最决定性的变量,「实时」实际上的重要性要更胜后者。但要把「实时」拉到极限,端到端实时多模态模型的崛起只是近来取得技术突破的一条明线——它从思考速度上缩短了语音的交互时间。而另一条更绵长的发展暗线则是 RTC(实时音视频,Real-Time Communications)技术的持续进步。

更详细的拆解一下多模态大模型中实时语音交互的核心路径,大概就能辨析 RTC 技术在其中的重要意义:

首先,语音输入经过 RTC 传输到服务器,服务器端的多模态大模型接收到语音后开始预处理,这里的预处理主要包含了音频的 3A,例如语音的降噪、增益控制、回声消除等操作,使得后续的语音识别更加准确,让大模型更能听懂用户说的话;

随后,预处理的语音数据送入模型进行语音识别和理解,系统再通过模型生成回应,这其中还需要通过语音合成技术转换为语音信号;

最后,语音数据通过 RTC 传输到用户端,完成一次完整的语音交互。

声网在实践中发现,传统的 AI 语音对话(STT-LLM-TTS)在应用 RTC 后,响应延时可从 4-5 秒降低到 1-2 秒,而在具备端到端实时多模态处理能力后,通过 RTC 技术,大模型实时语音对话的延时可降到几百毫秒内。从体验上看,RTC 技术的应用让对话式大模型的交互更智能,更具真实感。

在 GPT-4o 的发布会上,有一个细节引人注意:用于演示的手机连接了一根网线。工程师 Mark 解释说,这样做是为了确保网络的稳定性。这也揭示了一个事实,即 GPT-4o 的演示是在固定设备、固定网络和固定物理环境中进行的,以保证低延迟。

然而在实际应用中,用户的设备通常不能始终连接网线,最终无论多强的模型能力,都需要依靠 RTC 技术来真正落到实时对话的场景中。而这其中多模态大模型在与 RTC 技术结合时如何保障低延时、流畅的语音交互体验,变得尤为关键。

一句话来说,RTC 是将多模态大模型与实时互动场景连接起来最关键的技术桥梁。

而随着 RTC 从最初的一种前沿技术在近年逐渐变成一项基础设施级别的能力并迅速在各个场景中延伸,加入了场景视角的 RTE(实时互动,Real time engagement)概念开始取代 RTC,成为当下谈论实时互动能力新的技术名词。

以声网创始人兼 CEO 赵斌对 RTE 的概念表述:

「RTC(实时音视频)从 Communication 的视角,更多是在强调对语义信息进行高质量和高效率的传递。而 RTE(实时互动)更聚焦用户所需要的共享时空,即俗话所说的场景。」从 RTC 到 RTE,就是从基础能力向场景化能力的进化。

在这个端到端实时多模态模型产品化势头初现的时期,声网和 RTE 开发者社区联合发起了第十届 RTE 大会。实时互动与 AI 的结合在当下所能承载的所有想象力,都会在这场大会中现身。

02.AI 浓度拉满,第十届 RTE 大会亮点前瞻

首先,不用怀疑的是,这场 RTE 大会上会有非常多足够有分量的观点交锋。

国内大模型领域在 ToB 方向上走的最深的智谱 AI,以及国内大模型领域在 C 端产品化上最有心得的 MiniMax 将会出现在 RTE 大会上。作为这两年随大模型迅速成长的创业公司,智谱 AI 和 MiniMax在 RTE 技术在大模型的 ToB 和 ToC 两条路线上发展颇有心得。

而随着大模型开源生态的迅速发展,大量个人开发者从去年开始加入了这一股大模型浪潮,实时对话式 AI 开始成为一个备受开发者关注的产品赛道,通义千问也会带着国内最大开发者生态的经验在 RTE 大会中加入讨论。

除此之外,此次 RTE 大会也不乏业内备受瞩目的创业者身影。全球最受瞩目的 AI 科学家之一,一年前从阿里巴巴离职躬身入局大模型的贾扬清也会出现在此次 RTE 大会的主论坛上,来分享他在 AI 基础设施领域创业 18 个月后的经验心得,以及他对 RTE 与 AI 结合的未来趋势的判断。

本次 RTE 大会也将通过七场行业分论坛的形式,展现一幅最具想象力的 AIGC+RTE 行业场景应用图景,包括 AI+IoT、教育、泛娱乐、出海、数字化转型等七大行业。50+行业大咖将会现身行业分论坛现场,带来一线的场景实战案例以及极具深度的行业洞察。

场景是技术迭代所结的果实,未来对于新场景的想象力也酝酿在当下技术的前沿趋势中。本次 RTE 大会也在行业场景应用的讨论之外,设置了五场技术专场,分别聚焦在音频技术和 Voice AI、视频技术和 AI 生成、RTC+大模型、空间计算和新硬件、云架构和 AI 时代的 Infra 这五个技术方向,30+的技术大咖和专家学者将会带来自己对所在领域最深入的技术见地。

当然,对于参与到 RTE 大会中的开发者们来说,这里提供的不仅仅是观点和见地。每年 RTE 大会都会为参会开发者设置专属活动,在今年的 Workshop 中提供了用 TEN 开源框架来现场动手搭建拥有音视频理解能力的 AI Agent 的机会,这将为开发者带来更多 AI 实时互动场景创新灵感。

2024 年,实时对话式 AI 火热,而 RTE 大会也迎来了十周年。

时间倒回到十年前,2015 年移动互联网那时在国内还未完全成熟,RTE 大会在十年里见证了直播、在线教育、远程办公这些新的技术场景景一次次以新物种的面目亮相并最终融入了大众生活。在这个过程中, 实时互动技术逐渐成为人们在社交和泛娱乐产品中的基础设施。而随着实时互动行业的发展,走过十年的 RTE 大会已经变得越来越重要,它已经是当下这个领域在全球范围内规模最大、议题最全, 最具影响力的行业大会。

现在,AI 与实时互动的碰撞正涌现出新的技术和产品浪潮。而无论从前沿技术的探讨深度,还是多场景创新应用的丰富性上,今年的第十届 RTE 大会都像极了这样一场「风口浪尖」上的实时互动领域盛会。

这场大会将会展现出这场变革至今为止最锐利最先锋的一面。已经身处这场变革中的开发者们,或者对实时互动即将出现的颠覆性变化感到兴奋的所有人来说,请及时到场。

来源:极客公园

相关内容

热门资讯

A股新股民入市首日见闻:热情高... 10月9日,A股市场迎来一批新股民。根据此前中国结算的安排,10月1日至8日提交申请的新开证券账户,...
泰凌微前三季度业绩增长58.6... 10月9日,泰凌微公告,预计2024年前三季度实现归属于母公司所有者净利润约5961.22万元,较上...
单场45万人围观、4个月涨粉2... 你或许知道小红书在发力直播电商,但你或许没想到,小红书早已布局内容直播。 近日,新播场发现小红书上涌...
原创 在... 你知道?在极寒环境下,水搅拌竟然可以让它不结冰,这听起来是不是很神奇?想知道这个背后的物理原理是什么...
国家数据局:规范公共数据资源授... 中新网10月10日电 国新办10日上午举行新闻发布会,介绍公共数据资源开发利用有关情况。国家数据局局...
原创 华... 在众多国产手机中,没有一个品牌可以复制华为,华为一直深受国民青睐,对华为更有着独特的情怀。作为手机行...
东吴证券:券商巨头合并预案落地... 每经AI快讯,东吴证券研报指出,国泰君安、海通证券公告披露了两家券商的合并预案。本次吸收合并采取国泰...
行情分化!有主动基金单日大涨7... 每经记者:赵云 每经编辑:肖芮冬 10月10日,市场全天震荡分化,沪指冲高回落,创业板指继续调整。 ...
森麒麟(002984.SZ):... 来源:港股那点事 格隆汇10月10日丨森麒麟(002984.SZ)在投资者互动平台表示,公司暂未向比...
原创 荣... 2024年10月10日,根据多家科技媒体的消息,荣耀 X60 系列定档 10 月 16 日 19:3...
租房首选自如,“N+1”非隔断... 对于众多在一二线城市打拼的年轻人而言,高昂的租房费用已成为影响他们生活质量的重要因素。尽管他们拥有相...
机构密集调研折叠屏产业链公司 数据显示,9月以来,机构密集调研精研科技、维信诺、弘信电子、宜安科技、统联精密、悦安新材等16家折叠...
股票行情快报:美芝股份(002... 证券之星消息,截至2024年10月10日收盘,美芝股份(002856)报收于9.4元,上涨1.95%...
新能源应用牵引 碳化硅国产化加... 来源:证券市场周刊 海外碳化硅巨头亏损扩大,国内碳化硅厂商业绩则迎来“普涨”,而且,在碳化硅衬底、外...
三星S25有望全系配备防反光面... 【太平洋科技快讯】近日,热心网友分享了三星 S25系列的第三方屏幕贴膜照片,显示边框似乎进一步收窄,...
原创 可... 买手机我们一般主要看自己的预算资金和需求,预算千元左右,我们就不要想着买到最高配置的手机。其实也没有...
“双11”观察:拼多多再造行业... 中国商报(记者 陈晴)“双11”临近,一位IP定位为西藏的网友耿冰在社交平台上分享了近期的购物经历:...
贾跃亭要直播带货“真还传”了?... 红星资本局10月10日消息,贾跃亭又有了新动作。 10月9日,贾跃亭在微博宣布,其携手合伙人共同成立...
史上最长双11开战:京东下周一... 10月10日,京东宣布,京东11.11将于10月14日晚8点现货开卖。此前,天猫刚刚宣布10月14日...
中缆线缆取得新型自发热抗寒线缆... 金融界2024年10月9日消息,国家知识产权局信息显示,中缆线缆(天津)有限公司取得一项名为“一种新...