2025-03-03 15:03:01 作者:
随着DeepSeek在多行业内实现广泛接入应用,各领域掀起大模型效能变革。近日,有道智云发布全新产品“有道语音同传”,基于DeepSeek-R1和有道翻译大模型,提供多功能的语音同传服务,在不同语言的使用者之间实现即时沟通,可广泛应用于国际会议、商务谈判、教育培训、旅游导览等场景,提升跨语言交流的效率。
此前,有道智云全面拥抱DeepSeek-R1,持续推进产品升级,已实现QAnything的迭代优化,并推出了基于DeepSeek的第一款多模态交互应用AI Conversation。此次有道语音同传的全新发布,以DeepSeek-R1的强大能效进一步推动了有道智云的语音翻译服务升级,将满足更多行业客户的多元化需求。
支持100+种语言、克隆定制专属音色,重塑跨语言沟通体验
基于DeepSeek-R1和有道翻译大模型的模型能力,有道语音同传进一步结合了语音打断、语音识别、语音合成、一句话克隆、语音降噪等算法能力,支持通话同传、语音同传、视频同传、会议同传、网页音视频同传、本地文件同传等多功能,能够实现实时通话、社交软件的音视频聊天、实时会议、浏览器音视频内容等多场景下的语音转写与翻译。
在语种支持方面,有道语音同传支持中文、英文、日语、韩语、阿拉伯语、印地语、俄语等100多种输入语言,同时支持中文、英文、日语、德语、法语、西班牙语等100多种输出语言,以更广泛的语种覆盖范围,满足用户在全球范围内与不同国家、地区人士沟通的需求。
同时,在DeepSeek-R1的加持下,有道语音同传增强了语言交互能力,语音输入与输出响应速度稳定维持在1-5秒,极大提高了响应速度,并进一步增强了翻译的准确度。
值得关注的是,有道语音同传还能实现“一句话克隆”功能,用户只需录制一句话,即可生成与自身声音相似度高达95%的音色模型。利用有道自研TTS语音合成大模型,有道语音同传生成的音色模型能够呈现更自然的语音情感表达、更合理的停顿、更丰富的语气,让用户能够使用自身的声音进行即时沟通,获得个性化的语音同传体验。
DeepSeek加码有道翻译大模型,多维技术推动服务升级
作为有道智云接入DeepSeek的最新产品升级,有道语音同传集结了有道子曰翻译大模型与DeepSeek-R1的模型能力,构建“专业领域+通用智能”的混合架构,实现更高效准确的语言翻译服务。
作为有道自研的翻译大模型,子曰翻译大模型2.0在翻译质量、效率以及鲁棒性等方面实现了质的飞跃,展现出远超国内外通用大模型及专用翻译模型的高强性能,为有道语音同传提供了语言翻译能力基底。同时,DeepSeek-R1在主题识别、逻辑推理、语义理解、上下文关联、情感分析以及多语言支持等多维度的强大能力,进一步赋能了有道语音同传实现更精准、顺畅的语音交互。
除了大模型能力融合的加码,有道语音同传所实现的高效翻译能力也离不开有道在文本到语音(TTS)和自动语音识别(ASR)技术领域内的深耕积累。基于TTS技术,有道语音同传支持双向流式、逐字级流式输入及chunk级流式输出,实现低延时的语音交互;最高支持48khz的音频合成输出,使其能提供高保真音质;发音准确性超98%,实现高度精准的语音翻译效果;MOS分高达4.8以上,以高自然度呈现更接近真人声音的语音输出。
有道的ASR技术则凭借在匹配错误率、词信息丢失、词信息保留、词错误率和词正确率方面的显著优势,使有道语音同传能实现高精度同传,提升跨语言沟通效率。
事实上,作为网易有道的技术出口,有道智云一直为行业提供丰富的技术接口与服务,目前已与支付宝、微信、360、掌阅、网易邮箱、华为、三星、字节跳动、百度等众多知名机构及产品建立合作关系。
借力DeepSeek与有道自研翻译大模型的融合,有道智云以有道语音同传的全新产品升级,进一步释放大模型的应用价值,将助力更多行业客户跨越语言沟通障碍。未来,有道智云将持续加码AI底层技术研发,以技术创新推动语言服务行业的智能化升级,为更多客户提供更高效便捷的语言交互体验。