当前位置：首页 » 资讯 » 新科技 » 正文

遭GPT-4o碾压，豆包们直面语音AI生死战

IP属地北京 编辑：刘敏蓝鲸财经 时间：2024-10-01 13:08:35

文|科技新知廖政
最近，语音AI这个赛道，又被OpenAI搞火了。
就在9月25日，GPT-4o高级语音终于开始全量推出，Plus用户一周内都能用了。在OpenAI的移动端APP上即可体验！
讲真，这是AI渐冷的日子里，为数不多的“高光时刻”。
此外，还带上了一些更新，增加自定义指令、记忆、5种新的声音和改进的口音。与标准语音模式进行区分（黑色旋转球），高级语音将以蓝色旋转球表示。
并且，其中还包括对诸如重庆话、北京儿化音等地域性方言的精准模仿，可以说是学嘛像嘛。
在消除语音机械感的同时，用户不仅可以随时打断通话，即使不和它说话时，它也能保持安静，一旦有任何问题可随时向它提出。
从总体上来说，这次语音AI的更新，让GPT-4o的交互越来越有“人味”了。
不过，早在GPT-4o的实时语音功能推出前，国内的一批大厂，就已经率先开始了对语音AI这块高地的争夺，其焦点也是冲着“实时交流”“真人化”等方向去的。
至于结果…… 只能说，在“徒有其表”的模仿下，国内的语音AI，离真正通用且泛化的人机交互方式，还有相当一段距离。
Part.1短板暴露
在AI时代，语音AI最大的意义是什么？
对于这个问题，科大讯飞给出了一个具有全局性的答案：
语音平台可能成为未来物联网的“操作系统”，换句话说，就是当物联网将所有的设备都能联网后，什么智能硬件、自动驾驶汽车、消费级机器人等等，都是潜在的应用场景。
到那时候，要想让这些设备能听懂人话，那就得靠语音平台了。
但是，虽然总的思路挺有格局的，但在具体实施的手段上，讯飞这样的大厂却走了一条“自下而上”的路线。
大体意思是，在语音AI生态的构建上，讯飞这几年基本上是从行业场景一个个往下打，像教育、医疗、政务这些场景，都是它们重点发力的地方。
从总体上看，讯飞的策略是先抓住这些垂直领域，通过提供专用解决方案来逐步累积数据和优化算法。这个做法有个好处，就是每个场景里，讯飞可以做得很深、很专。
举例来说，讯飞在2022年推出了“讯飞医疗AI医生助手”，这款产品能在病历记录、辅助诊疗等方面提供语音输入和智能建议，帮助医生减轻文书工作压力。
类似的例子，还有讯飞在2023年推出了“智慧课堂解决方案”，旨在通过语音识别和评测技术，帮助教师进行实时的课堂互动与教学反馈。
在这些垂直领域，星火的定制化方案，确实解决了很多行业痛点，也使得讯飞能够在激烈的市场竞争中保持行业的龙头地位。
在GPT-4o推出语音演示功能后，讯飞的星火大模型，也紧随其后，推出了同样能够极速响应、自由打断，且能在各种情感、风格、方言随意切换的语音AI。
然而，对于构建能够“统一调度”的大平台级别的语音AI来说，除了做到布局广，且“说话流畅”之外，还有至关重要的一步。
那就是：实时状态下的语音AI，究竟能否帮助用户解决一些较为复杂的需求？
关于这点，我们对讯飞的星火大模型进行了一次测试。
左：纯文本状态下的回答，右：实时语音状态下的回答
例如，在询问开封有哪些著名景点时，讯飞的实时语音AI，虽然回答得很流畅，但答案却较为简单，比纯文本状态下省略了很多内容。
那造成这种差距的关键原因是什么？
其实，对于GPT-4o这样的语音AI来说，除了确保通话流畅的RTC技术外，其背后还有一种关键的技术。
这就是端到端的语音大模型。
在以往的AI语音交互中，语音的处理大致分成了三个步骤。传统的 STT（语音识别，Speech-to-Text）-LLM（大模型语义分析）- TTS（文本到语音，Text To Speech）三步走的语音技术。
这样的技术，特点是成熟，但反应慢，缺乏对语气等关键信息的理解，无法做到真正的实时语音对话。
与过去的三步式语音交互产品相比，GPT-4o 是一款跨文本、视觉和音频端到端训练的新模型，这意味着所有输入和输出都由同一个神经网络处理。
这也是GPT-4o说话时反应贼快，智商还在线的重要原因。
而当今一众力图模仿GPT-4o的国产厂商，例如字节跳动，虽然依靠RTC技术，让语音AI做到了流畅、即时，但在最核心的“内功”，即端到端语音模型方面，却露出了短板。
Part.2“智力”缩水
在今年的8月21日，字节挑动的豆包大模型，搭载了火山引擎的RTC技术，也实现了类似GPT-4o的实时音频互动表现，能够做到随时打断，交流自然，感觉就像真人说话一样。
所谓RTC（Real-Time Communication）技术，是一种支持实时语音、实时视频等互动的技术。旨在降低语音通话中的延迟，使得用户在进行语音对话时感觉更加自然和顺畅。
但RTC主要解决的，仅仅是语音AI流畅性和实时性问题，但它并不能直接整合语音识别、理解和生成的步骤。
换句话说，在实时通话时，模型虽然话说得利索了，但智商却不一定在线。
一个明显的例子，就是字节的豆包大模型，在通过实时语音AI与用户交流时，遇到了和讯飞星火一样的问题，那就是语音AI的智力，明显比纯文本大模型被“砍”了很多。
左：实时语音状态下豆包的回答，右：纯文本状态下豆包的回答
例如，在对《黑神话：悟空》这一话题进行交流时，纯文本状态下的豆包，回答明显要比实时语音的豆包要更详细，更有针对性。
一个可能的原因，是豆包在进行语音交互时，使用的并不是真正的端到端语音大模型。
在非端到端模型中，语音识别、理解和生成可能仍然是分开的步骤，模型需要在极短的时间内完成语音识别、理解和生成，而这一过程的计算和响应速度，会限制其对复杂问题的深入处理。
当模型被迫快速反应时，由于无法充分利用上下文信息，从而导致了“智力下降”的表现。
其实，真正的端到端语音大模型，实现起来远非想象中那么简单。
其中的难点，一在训练数据，二在计算资源；
根据腾讯算法工程师Marcus Chen的推测，GPT-4o这样的端到端语音大模型，背后使用的一种工程学方法，很可能是一种名叫离散化技术的路子。
这个技术，简单点说，就是把这些连续的声音波形切成一段一段的，每一段都提取出它特有的特征，比如语音的语义信息和声学特征。这些特征就像是一个个小的“口令”，机器可以把它们当成输入，丢到语言模型里去学习和理解。
但这可不是什么人人都能轻松掌握的技术。
要想做出高质量的语音token，需要大量的数据积累和复杂的建模过程。
这样的高质量数据，往往来自高质量的视频、播客等等。成本是过去文字训练模型的几十倍甚至更高。
而在计算资源方面，在实时互动场景中，计算必须在极短的时间内完成，这意味着端到端的大模型，通常需要消耗大量的计算资源，尤其是在处理高维度的语音数据任务时。
这也是为什么，OpenAI在推出GPT-4o的语音AI功能后，对用户的使用量进行了额度限制。其额度消耗和GPT-4o回复的额度一样。
反观现在以豆包为首的一些国产语音AI，虽然以免费、不限次数为噱头，但其生成质量，却相较于纯文本状态大打折扣。
这或许正是在算力资源紧张的情况下，模型采取的一种“权宜之计”。
因为当计算资源不足时，模型可能会优先选择简单的、低耗能的响应方式，以确保能够及时回应用户的请求。
毕竟，又想要免费无限地使用，又想要高质量的实时回复，天底下哪有那么好的事？
Part.3算力困境
在AI时代，各类To C 语音产品的主要逻辑是，将昂贵或难以获得的人类服务，且是基于对话且可以在线完成的，替换为 AI，主要场景包括心理疗愈、辅导、陪伴等。
对于To C 类APP，要想大范围地落地，其中一个前置条件，必然是成本的大幅度降低。唯有如此，企业才能够以更低的价格提供服务，进而不断扩大用户基数。
但问题是，在降低成本的同时，质量和成效能否保障一定的水准？
这正是最考验讯飞、字节等大厂的一点。
从商业上来说，在降低成本的同时，要想质量不拉胯，就需要有源源不断的资金，进行研发和技术迭代。
这就要求企业找到一种明确的商业模式，来自我造血。
OpenAI之所以能在如此短的时间推出GPT-4o的语音功能，是因为背靠微软，能获得源源不断的融资，从而不断强化其模型的能力。
相较之下，坐拥几乎是行业内最为丰富业务场景的科大讯飞，虽然赶上了2023年AI浪潮，并在同年6月市值一度逼近2000亿大关，可随着其大模型持续高额的投入、销售费用持续攀升。当下，讯飞对大模型收益能否覆盖成本尚无定论，成本压力始终存在。
一个重要的问题是：既然在一些特定的行业，例如医疗、教育、客服等，传统语音AI已经能够胜任了，那么以端到端大模型为核心的语音AI，又该怎样从中获取自己的市场份额？
一个可能的方向，就是在各种长尾需求中，对一系列复杂查询和非标准化指令做出回应。例如在智能汽车或移动应用中，端到端模型可以通过自然语言，理解用户说的犄角旮旯的地点在哪，并提供精确的导航指令。
然而，在这种模式下，用户更多地是为语音AI背后强大的语言模型付费，为其出众的智力付费。
因此，端到端语音AI的盈利之路，一开始就因为这种“附属地位”而充满了坎坷，因为前者的能力一旦遇到瓶颈，其也会跟着“一损俱损”。
而在附属于语言大模型的尴尬之下，在算力资源的分配方面，语音AI也面临着一种不利的态势。例如，对于字节来说，迄今为止，字节跳动已经推出了11款AI应用；其中，豆包是国内用户最多的AI独立应用，其MAU可能已达到2000万量级。
然而，从业务布局上来说，语音AI现阶段不太可能是字节的重点。
在9月24日的深圳AI创新巡展上，火山引擎发布两款视频生成大模型PixelDance（像素舞动）和Seaweed（海草），很多业内人士分析，这条视频AI的类“Sora”赛道，才是以短视频闻名的字节真正不能输掉的一仗。
而AI视频生成，恰恰又是最消耗算力的一条赛道。
豆包AI视频生成模型
与语音AI相比，同样消耗高算力的视频生成AI，因为对应着短视频这个更明确，且更易于盈利的赛道，因此在资源分配上，更有可能得到大厂或投资者的倾斜。
结合之前豆包在实时通话状态下的智力表现，我们或许能够推断，留给豆包打造端到端语音大模型的算力，未必会那么充足。
而这种资源不足，却又要在面上与GPT-4o一较高下的情况，这正是当下实时语音AI这支“偏军”在中国AI版图中的窘境所在。
语音交互技术火热了十来年，到了大模型时代，OpenAI、科大讯飞、字节这些大厂，又开始重新在往这领域挤，为何？因为这种技术，实际上暗藏着语音平台可能成为未来物联网“大脑”的想象。
通过一个语音平台，操控所有智能终端，这是所有传统语音AI都办不到的事。但是，这技术要想做得好，得先解决一个大问题，就是机器得能真正理解人说的话。这就需要AI在自然语言理解、知识获取这些领域有新的突破。
然而，在语言大模型遇到瓶颈，且算力资源被视频AI等“光环”更耀眼的产品抢走的情况下，语音AI在中国人工智能的版图中，暂且只能是个尴尬的存在。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

9 月小米 SU7 交付量超一万台，10 月目标生产、交付量超两万台

锐龙7 9800X3D缓存不变还是104MB：频率大涨！

喜迎国庆

《足球经理 25》游戏将于北京时间 11 月 27 日发售

餐饮进入平价时代，卷低价不是唯一解法

AMD发布首个AI小语言模型：6900亿token、推测解码提速3.88倍

托马斯·萨拉：Steam收30%手续费应该降低独立游戏行业需要新活力

Firefox火速下架插件大杀器uBlockOrigin Lite不再更新

华为果断“发飙”，突降1711元，售价比官网便宜1211元

10 月 1 日全国铁路预计发送旅客 2100 万人次

“股神”巴菲特再次加码日股？伯克希尔拟发日元债券，商社类股应声走高

日股有望再获“股神”加持？伯克希尔拟年内第二次发行日元债

歌唱祖国喜迎国庆

（图表·漫画）国庆节丨国庆假期快乐多

小米新品冰箱新品发布支持远程操控和离子全域净化

《塞尔达传说：智慧的再现》官方回应林克“小哑巴”设定

外媒吐槽索尼不该做PS5 Pro：会让Xbox占领竞争先机

南开大学联合多伦多大学科学家成功突破新一代光伏核心技术

realme 真我 GT7 Pro 手机通过 3C 认证

争议难平，uBlock Origin Lite 退出 Firefox 浏览器附加组件商店

影像稳了！小米15 Pro回归潜望式长焦镜头、支持AI超分

PS5独占大作《地平线3》或转向在线游戏！

小岛秀夫：《死亡搁浅2》开发进度顺利，已完成了30%~40%的开发

东京电玩展：死亡搁浅2发售日期仍然定于2025年

Steam喜加一！《纸嫁衣6千秋魇》免费领取

网传《地平线》系列将出大型在线游戏有知情人士称已开发很久了

边界迷航上了简体中文版！快来一起探索飞船的神秘世界

全站最新

9 月小米 SU7 交付量超一万台，10 月目标生产、交付量超两万台

什么样的跨境电商适合户外用品卖家

锐龙7 9800X3D缓存不变还是104MB：频率大涨！

普利司通以创新科技持续推动新能源汽车行业发展

喜迎国庆

使用已停用的保险条款，天安财险一支公司被罚

扎克伯格财富激增，身家突破2000亿美元，成全球第四大富豪

餐饮进入平价时代，卷低价不是唯一解法

热门推荐

9 月小米 SU7 交付量超一万台，10 月目标生产、交付量超两万台

锐龙7 9800X3D缓存不变还是104MB：频率大涨！

喜迎国庆

《足球经理 25》游戏将于北京时间 11 月 27 日发售

餐饮进入平价时代，卷低价不是唯一解法

AMD发布首个AI小语言模型：6900亿token、推测解码提速3.88倍

托马斯·萨拉：Steam收30%手续费应该降低独立游戏行业需要新活力

Firefox火速下架插件大杀器uBlockOrigin Lite不再更新

国庆节：五星红旗映红开山岛

Steam省时又省力《影之刃零》PS5实机画面惊艳

华为出身的副董事长辞任，荣耀股改进入倒计时

华为果断“发飙”，突降1711元，售价比官网便宜1211元

10 月 1 日全国铁路预计发送旅客 2100 万人次

“股神”巴菲特再次加码日股？伯克希尔拟发日元债券，商社类股应声走高

日股有望再获“股神”加持？伯克希尔拟年内第二次发行日元债