近日,中国人工智能学会发布2024年度“吴文俊人工智能科学技术奖”公告,京东科技人工智能团队凭借“多模态交互式数字人关键技术及产业应用”项目荣获中国智能科学技术最高奖——吴文俊人工智能科学技术奖的特等奖,也是本年度唯一的特等奖。
吴文俊人工智能科学技术奖被誉为“中国智能科学技术最高奖”,奖励在智能科学技术领域取得重大突破、作出卓越贡献的科技工作者以及具有重大意义的高校和企业项目,是我国人工智能领域的最高技术荣誉。这是京东集团继2021年“商品智能匹配关键技术及在营销中的应用”和2022年“任务型智能对话交互关键技术及大规模产业应用”之后的又一次获奖,再次展现了京东在AI技术研发与产业应用领域的持续领先性。
多模态交互式数字人技术集语音、语义、形象等多模态技术于一体,存在诸多的技术挑战,一直是国内外研究的前沿技术领域。在本次获奖项目中,京东科技人工智能团队在以下三方面实现了技术突破:提出了低成本、高保真人体建模技术,解决了人体建模成本高、观感差难题;提出了语义一致多模态应答技术,解决了多模态语义难对齐、应答弱难题;提出了多模态自然化行为生成技术,解决了多样化行为难协调、交互假难题。
京东多模态交互式数字人能力持续位居国际领先水平,并在2024年率先开启行业最大规模的商业化应用,截至目前,已服务9000+商家,累计为商家带来销售增量超140亿。2024年4月,采销东哥AI数字人实现了高逼真、高可靠、极低幻觉率的新水平。2024年京东618期间,包括格力总裁董明珠、洁丽雅总经理“毛巾少爷”石展承、名创优品CEO叶国富等21位总裁数字人空降京东直播间,与数千家品牌商,共同创造了史上一日并行规模最大的数字人直播事件。在京东11.11、年货节等场景,数字人与个护美妆、家电家居、母婴宠物等品牌产生化学反应,持续带来千人千面的直播交互体验。
近期,京东言犀数字人技术再度进化。京东科技人工智能团队打造的数字人通用的基座大模型,通过语音合成大模型LiveTTS及通用数字人大模型LiveHuman,仅需输入自然语言或1秒视频/照片,即可生成4K超高清、100%口型匹配的数字人,彻底告别数字人制作对线下拍摄、建模与耗时训练的依赖。
LiveTTS语音合成基座模型:基于20万小时数据训练的扩散模型,实现“零样本”声音合成与多语种情感化输出,音色相似度较其它头部厂商高出1.3倍、字符错误率(CER)降低最高5.12%;
LiveHuman数字人基座模型:创新性的人体过渡帧生成技术,解决多片段衔接卡顿难题,在遮挡、大角度、动态背景、多人直播等极端条件下仍有流畅表现。
这一系列突破将单个数字人生产成本从数万元拉低至两位数,较真人拍摄模式成本降幅超90%,标志着数字人从“专业工具”正式成为“普惠生产力”。这将为广告素材批量生成、新媒体投放、个人IP打造等场景应用拆掉技术藩篱,走向工业级应用。
作为一家兼具实体企业基因和属性、先进数字技术和能力的新型实体企业,京东20多年来持续深耕供应链,用人工智能等数智化技术全面连接和优化社会生产、流通、消费、服务等各个环节。从零售效率提升到产业生态构建,京东始终践行“以实助实”的路径。截至2024年底,京东体系在基础科学和技术研发上已累计投入近1400亿元,先后推动大语言模型、语音识别及合成、数字人等一系列人工智能共性关键技术建设,并广泛应用于零售、物流、工业、健康、政务等产业场景,助力千行百业实数融合,实现高质量发展。
面向未来,数字人只是京东浩瀚技术创新版图中的一小部分。京东正加速推动AI构建新质生产力,让每个企业乃至个人都能更高效率、更低门槛拥抱AI。
(注:此文属于登载的商业信息,文章内容不代表本网观点,仅供参考。)