当前位置: 首页 » 资讯 » 新科技 » 正文

通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni

IP属地 北京 编辑:沈瑾瑜 时间:2025-03-27 08:01:41

3月27日,通义千问宣布发布新一代端到端多模态旗舰模型 Qwen2.5-Omni。

据介绍,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

Qwen2.5-Omni采用Thinker-Talker双核架构。

Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新