当前位置: 首页 » 资讯 » 新科技 » 正文

超越先前最佳,阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型

IP属地 北京 编辑:赵磊 IT之家 时间:2024-08-13 12:35:45

8 月 13 日消息,阿里通义千问开源Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:

语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入 音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析

官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。

▲Qwen2-Audio 整体表现

附相关链接如下:

试用链接:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo 论文地址:https://arxiv.org/abs/2407.10759 评估标准:https://github.com/OFA-Sys/AIR-Bench 开源代码:https://github.com/QwenLM/Qwen2-Audio

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新