当前位置：首页 » 资讯 » 新科技 » 正文

阿里深夜重磅通义千问新一代端到端旗舰模型Qwen2.5-Omni发布

IP属地北京 编辑：柳晴雪砍柴网 时间：2025-03-27 23:30:56

全能创新架构：Qwen团队提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。
实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。
自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。
全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。
卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。
Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频/图像编码器进行特征提取；Talker则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。
模型架构图
模型性能方面，Qwen2.5-Omni在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模态任务OmniBench，Qwen2.5-Omni达到了SOTA的表现。此外，在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval和主观自然听感）。
该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

财政部出手，四大银行官宣！

建设银行：拟向特定对象财政部发行A股股票，募集金额不超过1,050亿元

BD交易化解融资困境！业界：创新药活下来了 “活得好”挑战更大

2025上海AWE展会总结：从AI到机器人到主动服务...

AMD公版RX 9070 XT首次无死角曝光、拆解：看着好眼熟

NVIDIA强制！所有RTX 50笔记本必须明确标注显卡功耗

2025AWE观察：谁最懂中国家庭？智能清洁赛道的暗战

威刚XPG推出魔核SP系列电源：支持ATX 3.1、850/1000W可选

家庭机器人中国方案：vivo 的积累、征途和机会

最高降1.6万元！比亚迪多款非智驾车型降价，意在清理库存

影驰Z890星曜主板评测：颜值与实力并存的电竞利器

AI Agent浪潮下，昇腾与科大讯飞携手开辟AI落地“新航路”

腾讯入股人形机器人“明星公司”

华为李鹏：携手同行，智创未来

创始人王宁财富达505亿！泡泡玛特黑猫投诉却超1.5万条

大模型赋能下的百丽时尚与滴普科技：共创AI新生态

科技巨头起手下一局：造车的终局是造机器人？

质量大模型及其在接口测试场景下的实践

摩尔线程GPU无缝适配DeepSeek-V3-0324，大模型落地再提速！

腾讯视频正在失速

阿里开源首个全模态大模型Qwen2.5-Omni

谷歌推出Gemini 2.5版大模型推理能力突破百万token

我国首个通用人工智能大型社会模拟器发布：可推演社会运行规律

3499元起 TCL T7L&Q9L系列全球首发：高对比度屏+万象分区

喜讯！荣登广州市首批人工智能应用先锋榜单

盘点2025年优秀数字人公司有哪些?客易云腾讯百度等榜上有名

saas小程序制作平台有哪些

全站最新

配置天际线、价格地平线，传祺向往S7限时价16.98万-22.38万正式上市

传祺向往S7即将上市，搭载智能座舱与高阶智驾系统，性能如何？

兴宁市召开民营企业座谈会：营造良好营商环境，再造一个新兴宁

财政部出手，四大银行官宣！

土地市场已失控，房地产要变天了！

N351炭黑批发价了解特性价格走势及市场前景

传祺向往S7上市，30万级智驾体验仅需16.98万起，你心动了吗？

法拉第FX 6纯电轿跑SUV谍照来袭，2025年或将震撼上市？

热门推荐

财政部出手，四大银行官宣！

建设银行：拟向特定对象财政部发行A股股票，募集金额不超过1,050亿元

BD交易化解融资困境！业界：创新药活下来了 “活得好”挑战更大

2025上海AWE展会总结：从AI到机器人到主动服务...

AMD公版RX 9070 XT首次无死角曝光、拆解：看着好眼熟

NVIDIA强制！所有RTX 50笔记本必须明确标注显卡功耗

2025AWE观察：谁最懂中国家庭？智能清洁赛道的暗战

威刚XPG推出魔核SP系列电源：支持ATX 3.1、850/1000W可选

家庭机器人中国方案：vivo 的积累、征途和机会

最高降1.6万元！比亚迪多款非智驾车型降价，意在清理库存

影驰Z890星曜主板评测：颜值与实力并存的电竞利器

AI Agent浪潮下，昇腾与科大讯飞携手开辟AI落地“新航路”

腾讯入股人形机器人“明星公司”

华为李鹏：携手同行，智创未来

创始人王宁财富达505亿！泡泡玛特黑猫投诉却超1.5万条