声网刘斌:RTE 演进助力 AI Agent 应用落地
12月11日,声网 COO 刘斌出席由量子位举办的 MEET2025智能未来大会,并带来了主题演讲,他分享了在实时多模态的趋势下,RTE 的演进如何助力 AI Agent 应用落地,并认为 RTE 将成为生成式 AI 时代 AI 基础设施的关键部分。
在 GenAI 时代,RTE 与 AI Agent 有什么关系?刘斌首先分享了两个事件,其一,今年10月初,声网的兄弟公司 Agora 作为语音 API 合作者出现在了 OpenAI 发布的 Realtime API 公开测试版中。其二,10月底的 RTE2024实时互联网大会中,声网也宣布与 MiniMax 正在打磨国内首个 Realtime API。通过这两个事件反映出当下大模型的交互正在走向实时多模态。
实时音视频成为对话式 AI Agent 的关键一环
刘斌认为,在多模态模型推出后,对话的方式与原来纯文本交互不同,会从异步变为实时双工交互,实现了很大的飞跃。但在最终应用落地的过程中,依然存在很多客户痛点,比如在实际应用场景中,用户的设备通常无法像发布会演示的那样一直处于固定网络与物理环境下,大部分Conversational AI Agent 的使用场景是随机的,也就是可能会发在 Anytime Anywhere,比如在开车送完孩子上学之后,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。一般来说,延迟在 1.7 秒内会让人感觉自然,2 秒多、 3 秒则会让人觉得卡顿、反应慢。
其次在模型交互中能否支持智能打断以及主动交互也是用户非常关注的一个关键点。要做到这些,除了模型能力,在应用落地方面,需要端到端的能力支持,不仅需要成熟的 VAD 技术来实现自由打断,更需要一整套的音频高级算法来支撑实现优雅打断,从而实现用户体验最好的人模对话,当然也需要应对不同的物理环境、复杂的网络环境、PC、手机以及各类 IoT 终端等。
声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过将 RTE 与 GenAI 结合,推出了声网 Conversational AI Agents ,旨在帮助开发者与企业解决 Agent 应用落地的一系列痛点,快速构建适配自己业务场景的 AI 实时语音对话服务。
语音对话延迟低至500ms:针对大模型语音交互中普遍存在响应时间长的痛点,声网自研的 SD-RTN? 实时传输网络可以实现全球范围的低延时音视频传输,目前可做到语音对话延迟低至 500ms,并进一步通过更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性,达到近似人与人之间日常对话停顿与间隔。
支持智能打断:开发者在构建 AI 应用场景时,会将能否支持随时打断也成为衡量大模型智能化的重要指标。声网自研的 AI VAD 技术,适应人类对话的停顿、语气和对话节奏,支持 AI 对话过程中随时打断。同时,声网的解决方案还深度优化 AI 角色,最大程度保留情绪情感等关键信息,超拟人真实音色丰富通话体验。
支持30000+移动终端:在大模型的应用落地中,不同的终端设备、操作系统等也会带来不一样的体验,声网的音视频 SDK 经过不断的迭代升级,可以支持 30 多个平台框架、30000 多终端机型及各种操作系统,包括各类 IoT 设备终端;
领先的音频处理:在人与人音视频通话的过程中,环境噪音是经常遭遇的一大痛点,影响沟通效率。在 GenAI 场景中,环境噪音同样无法避免。声网具备业界领先的音频3A能力,提供 AI 回声消除、AI 智能降噪、背景人声过滤、音乐检测/过滤、主讲人声纹锁定等自研音频技术,即使在商场、地铁站等嘈杂环境中,也能保证 AI 对话过程不受影响。
灵活可扩展的 AI Agent 架构:开发者在构建 AI 应用时,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。
RTE 成为 GenAI 时代 AI Infra 的关键部分
在与大模型厂商合作的过程中,声网也发现想要提升大模型落地的实用性,现有 RTE 技术栈和基础设施仍有大量改进空间。刘斌表示,只有通过不断的演进,大模型才有机会在各种场景、形态下大规模参与到和人的语音对话中,大模型也将基于云、设备端、边缘的多维度参与与协作。基于这些能力的改进和普及,未来 RTE 将成为 GenAI 时代 AI 基础设施(AI Infra)的关键部分。
同时,Gen AI 也在驱动 RTE 实时互动的技术变革与体验革新,在人与人的实时互动中,声网一直致力于实现从 QoS 服务质量到 QoE 体验质量的技术变革,在体验层面也从“听得到“变为“听得清”。而在人与 AI 的实时互动中,为了进一步增强体验,RTE 的技术变革也演变为 AI QoE 甚至多模态 AI QoE,这背后就包含了声网自研的 AI VAD 能力、降噪能力及网络优化等一系列技术能力,以使得人与 AI 的对话更符合实际情况,大模型也从理解内容,变成理解对话人的心理、情绪,最终理解对话时的人类意图,最后实现从“听得懂“到“听「得心」”的体验革新。
在 GenAI 时代,声网的产品体系也在不断加强,刘斌也进一步介绍了声网的 AI RTE 产品矩阵,包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做补充与优化。
最后刘斌还介绍了声网 RTE + AI 能力全景图,包括 RTE+AI 生态能力、声网 AI Agent、Conversational AI Agents 解决方案等,全面的展现了声网对 RTE+AI 的整体思考,致力于成为 GenAI 时代 AI 基础设施的关键部分。
本文出处:快科技本文链接:http://www.tiefuzhen.com/game/202412/157166.html
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
-
盗贼pve天赋 盗贼三系天赋
首先**,本天赋使用范围如下:3、纯PVE玩家,想PVP?买双天赋去吧4、主手慢速拳套副手快速匕首的DZ(参考PPM实测,这个方案比较折中而且可 [详细] -
天天向上天佑 天佑上天天向上节目是哪一期
1、天佑在《天天向上》的出场是在20180202期。2、这一期节目中,天佑作为嘉宾参与了录制,与主持人和观众分享了他的音乐创作经历和心路历程 [详细] -
获取北地香料 的方法 wlk (获取北地香料的途径)
购买部落玩家可在城中找NPC米森希购买,联盟玩家可在城中找NPC德里克奥斯购买,达拉然城每日烹饪任务北地香料可通过完成达拉然城的每日烹饪任务获得,联...[详细] -
领主之塔 塔达林高阶领主
在DNF游戏里,领主之塔是一个非常好的活动副本,可以兑换到很多有用的史诗装备。那么有很多的玩家们还不清楚dnf领主之塔位置在哪?所以下面 [详细] -
周星驰御用配音!著名配音演员石班瑜去世:享年66岁
快科技9月18日消息,据看电影官微消息,著名配音演员石班瑜于2024年9月17日上午去世,享年66岁。石班瑜原名石仁茂,绰号石斑鱼,1958年3月9 [详细] -
击破谣言!实测iPhone 16全系可用微信
快科技9月19日消息,iPhone 16系列评测解禁,经博主凰家评测测试,iPhone 16系列4款机型全系可用微信,击破了之前的谣言。此前在9月2日, [详细] -
dk符文熔铸 wlk血dk符文熔铸用哪个
堕落十字军。如果玩双持龙喷在有了四件套以后,主手可以考虑癔狂,单手武器双持的话主手堕落十字军,副手冰封,配合冰DK输出Dps会很耀眼, [详细] -
口袋妖怪 口袋妖怪全流程图文攻略 (口袋妖怪口袋暴龙5.0最终版进化图鉴)
总览口袋妖怪和珍珠各有其之处,但从整体游戏体验和玩家反馈来看,口袋妖怪相对更为,优势对比故事情节和角色塑造口袋妖怪在故事情节和角色塑造上更为出...[详细] -
饥饿游戏3 饥饿游戏3完整剧情
1、背景:在第75届饥饿游戏*后,女主凯特尼斯用弓箭射穿人工穹顶,利用电力场破坏游戏场。被前来救援的十三区飞机接走,同时被接走的贡品还 [详细] -
口袋妖怪红宝石神兽 口袋妖怪红宝石神兽有哪些
关于口袋妖怪红宝石神兽分布图,口袋妖怪红宝石神兽这个很多人还不知道,今天来为大家解答以上的问题,现在让我们一起来看看吧!1、口袋妖 [详细]