【头部财经】微软最近发布了一款名为NaturalSpeech2的语音模型,该模型采用创新的设计,在零样本语音合成方面表现出色。微软表示,NaturalSpeech2提供了商业级的语音/歌唱解决方案,为用户提供高质量、多样化的语音合成体验。
与传统的语音转文字(TTS)系统不同,微软的NaturalSpeech2使用连续向量来表示语音,而不是离散标记,从而生成更完整的语音片段,避免了生硬的"棒读"现象,使生成的语音更加自然。
微软进行了一系列演示,展示了NaturalSpeech2在零样本情况下生成具有不同说话人身份、韵律和风格(如唱歌)的语音的能力。实验结果显示,NaturalSpeech2生成的语音与真实语音的韵律几乎一致,在自然度方面与真人语音难以区分。
该语音模型的论文已发布于GitHub,感兴趣的读者可以前往查阅。NaturalSpeech2的推出标志着语音合成领域的重要进展,为用户提供更优质、真实的语音体验,具有广泛的商业应用前景和潜力。微软的创新技术将进一步推动语音合成的发展,并为用户带来更多便利和创造力的体验。