当前位置: 首页 » 资讯 » 新科技 » 正文

喜马拉雅音频大模型通过备案

IP属地 北京 编辑:王婷 北京日报 时间:2024-09-21 14:35:38

记者9月20日从喜马拉雅获悉,在近日上海网信办发布的最新一批上海市生成式大模型备案通过名单中,喜马拉雅音频大模型与米哈游、阅文集团的筑梦岛等文本大模型共同通过了备案,成为全国首个通过备案的音频生成类大模型。

据悉,喜马拉雅音频大模型是全球首个第四代多情感演绎、超自然表达的音频生成大模型。

该模型是珠峰AI团队基于自研文本音频联合建模的LLM框架,在同一空间向量表征下实现音频与文本的联合建模训练。通过训练可实现15秒音色克隆能力和声音转换能力;超拟人、多情感、对齐人类偏好的语音生成;高可控风格和副语言能力等。

研发团队对训练好的模型进行评估发现,在长音频内容如有声小说的场景下,该音频大模型在角色演绎风格的可控性、音素表现的稳定性、语流韵律停顿等的自然度上显著高于国内外第三代音频生成模型。

据悉,喜马拉雅音频大模型践行“产模结合”的范式,通过模型结合产业形成业务、数据、算法的正反馈循环。其在AIGC有声书、Chat对话式交互等业务场景上广泛使用,诸如最近爆火的有声书我的阿勒泰就是由音频大模型生成。珠峰AI表示,音频大模型能力已经在珠峰AI官网上可以直接体验使用,用户可以直接创作自己的音频内容。

客户端

记者:赵语涵

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新