当前位置：首页 » 资讯 » 新科技 » 正文

中国移动联合南京大学团队研发高保真 2D 数字人说话驱动系统

IP属地北京 编辑：沈瑾瑜 IT之家 时间：2024-12-09 13:23:43

12 月 9 日消息，中国移动 12 月 8 日宣布联合南京大学团队研发高保真 2D 数字人说话驱动系统。
作为拥有世界规模第一用户数的通信运营商，中国移动每年的客户服务运营成本巨大。现已广泛普及的智能语音客服虽能完成一定的业务自动应答任务，但依然不及人工客服面对面，一对一的星级服务体验。
针对实际业务存在的痛点，中国移动九天视觉团队联合南京大学邰颖团队，研发高保真 2D 数字人说话驱动系统，旨在为用户提供表情自然、唇音同步和头部姿态和谐的数字人播报对话服务，可应用于智能客服、教育培训、广告营销等场景。
▲ 情感控制的高保真 2D 数字人说话驱动方法
据中国移动官方介绍，2D 数字人说话驱动系统实现根据给定目标人物的照片或视频和任意一段音频，生成与音频同步的目标人物说话视频流。要求生成视频里的人物逼真度高，表情姿态自然，同时需要具有较高的实时性，能做到与语言大模型、音频合成能力有机整合，构建起人物数字替身。
中国移动九天视觉团队联合南京大学研发的高保真 2D 数字人说话驱动系统，在以下三方面开展了技术攻坚和方案创新：

第一，性能实时：相比以往数字人方法，在实时播报的口型生成技术上达到了学术界领先水平，支持中英文数字人口型驱动，在保持效果的情況下达到实时性能 30ms / 帧。

第二，效果领先：研发二阶段学习框架，将数字人说话驱动拆解成：从音频到口型系数和从口型系数到生成人像两部分，降低学习难度，实现更好的生成效果。

第三，情绪控制：引入情绪引导学习模块，支持正常、微笑、惊讶、愤怒、恐惧、悲伤等 7 种主流情绪控制生成能力，赋予生成的播报人人文情感表达能力。

▲ 高兴、悲伤情绪下的数字人说话生成效果
从中国移动官方获悉，数字人生成技术上实现了端到端的二阶段 30 FPS 实时生成性能，并支持 512*512 人脸区域生成，同时具备高兴、悲伤等 7 种主流情绪控制生成能力。
在评测集 VoxCeleb 指标方面，该技术的口型准确性 LMD（LandMark Distance）达到 4.3，生成自然度 FID 达到 11.1。
中国移动官方表示，该研发成果应用前景广阔，有效降低了创作门槛，提升了生成人物的视觉质量，已为 5G 新通话、和留言小秘书品牌业务的拓展赋能升级。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

加速应用智能化革新，阿里云智能语音交互等人工智能类SDK已适配原生鸿蒙

金山办公赵九州：让WPS AI与用户形成协作关系

出门问问「序列猴子」语音大模型通过生成式人工智能服务备案

视觉中国荣膺2024年度卓越竞争力上市公司

微软修复扫描仪 USB 连接问题，解除 Win11 24H2 升级限制

Steam 客户端测试新功能：可设置游戏仅在启动时更新

蚂蚁集团，正在告别「三巨头」时代

曝明年前三季度有四大旗舰手机发布涉及华为小米OV？

极越CEO内部信被指抄袭蔚来李斌不能说一模一样

极越CEO回应要求交社保：都在解决如果逃避就不会来

Nvidia、AMD和Intel罕见联手，投资一家光芯片公司

心言集团CEO任永亮受邀在2025 智能未来大会上发表主题演讲，分享 AI 在泛心理领域实践经验

医渡科技再度荣膺“最佳TMT公司”奖项

怪兽充电荣获“金桥奖·年度创新高质量消费公司”

首日开盘大涨652%！国产半导体设备零部件巨头先锋精科登陆科创板

Mate70芯片100%国产化：自主才能自由，才能不被美国卡脖子

极越爆雷后CEO首次露面！现场员工情绪激动集体维权

联发科首次打入苹果供应链：为Apple Watch提供芯片

今日起Apple智能支持澳大利亚、英国等6国语言：中文明年登场

iQOO 7000mAh电池新机曝光配SM8735 明年发布

2024华为花粉年会开启招募本月底深圳举办共招350人

微软宣布 Win11 将弃用“推荐操作”功能

陕北煤老板的1000亿，盯上西安高奢酒店

英伟达、AMD、英特尔均参投，Ayar Labs 完成 1.55 亿美元D轮融资

中国电商TP时代落幕

外媒：谷歌推出最新AI模型Gemini 2.0

谷歌AI Overviews功能融入AI模型Gemini 2.0

全站最新

80亿，能否买北京现代一个未来？

加速应用智能化革新，阿里云智能语音交互等人工智能类SDK已适配原生鸿蒙

金山办公赵九州：让WPS AI与用户形成协作关系

出门问问「序列猴子」语音大模型通过生成式人工智能服务备案

视觉中国荣膺2024年度卓越竞争力上市公司

特斯拉的隐忧，Model Q就能解？

700亿打水漂，通用“动刀”自动驾驶

微软修复扫描仪 USB 连接问题，解除 Win11 24H2 升级限制

热门推荐

加速应用智能化革新，阿里云智能语音交互等人工智能类SDK已适配原生鸿蒙

金山办公赵九州：让WPS AI与用户形成协作关系

出门问问「序列猴子」语音大模型通过生成式人工智能服务备案

视觉中国荣膺2024年度卓越竞争力上市公司

微软修复扫描仪 USB 连接问题，解除 Win11 24H2 升级限制

Steam 客户端测试新功能：可设置游戏仅在启动时更新

蚂蚁集团，正在告别「三巨头」时代

曝明年前三季度有四大旗舰手机发布涉及华为小米OV？

极越CEO内部信被指抄袭蔚来李斌不能说一模一样

极越CEO回应要求交社保：都在解决如果逃避就不会来

Nvidia、AMD和Intel罕见联手，投资一家光芯片公司

心言集团CEO任永亮受邀在2025 智能未来大会上发表主题演讲，分享 AI 在泛心理领域实践经验

医渡科技再度荣膺“最佳TMT公司”奖项

怪兽充电荣获“金桥奖·年度创新高质量消费公司”

首日开盘大涨652%！国产半导体设备零部件巨头先锋精科登陆科创板