当前位置: 首页 » 资讯 » 新科技 » 正文

微软发布NaturalSpeech2语音模型:打造商业级语音合成体验

IP属地 山东临沂 编辑:李马克罗 头部财经 时间:2023-07-27 17:10:00

【头部财经】微软最近发布了一款名为NaturalSpeech2的语音模型,该模型采用创新的设计,在零样本语音合成方面表现出色。微软表示,NaturalSpeech2提供了商业级的语音/歌唱解决方案,为用户提供高质量、多样化的语音合成体验。

与传统的语音转文字(TTS)系统不同,微软的NaturalSpeech2使用连续向量来表示语音,而不是离散标记,从而生成更完整的语音片段,避免了生硬的"棒读"现象,使生成的语音更加自然。

微软进行了一系列演示,展示了NaturalSpeech2在零样本情况下生成具有不同说话人身份、韵律和风格(如唱歌)的语音的能力。实验结果显示,NaturalSpeech2生成的语音与真实语音的韵律几乎一致,在自然度方面与真人语音难以区分。

该语音模型的论文已发布于GitHub,感兴趣的读者可以前往查阅。NaturalSpeech2的推出标志着语音合成领域的重要进展,为用户提供更优质、真实的语音体验,具有广泛的商业应用前景和潜力。微软的创新技术将进一步推动语音合成的发展,并为用户带来更多便利和创造力的体验。


标签: 微软 NaturalSpeech2

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新