当前位置：首页 » 资讯 » 新科技 » 正文

受DeepSeek-R1启发，小米大模型团队登顶音频推理MMAU榜

IP属地北京 编辑：顾青青 时间：2025-03-17 13:31:30

3月17日，小米技术官方微博发文称，小米大模型团队在音频推理领域取得突破性进展，受 Deepseek-R1 启发，团队率先将强化学习算法应用于多模态音频理解任务，仅用一周时间便以64.5%的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首。现同步开源。
据介绍，MMAU（Massive Multi-Task Audio Understanding and Reasoning）评测集是音频推理能力的量化标尺，它通过一万条涵盖语音、环境声和音乐的音频样本，结合人类专家标注的问答对，测试模型在27种技能，如跨场景推理、专业知识等应用上的表现，期望模型达到接近人类专家的逻辑分析水平。
作为基准上限，人类专家在 MMAU 上的准确率为 82.23%。目前 MMAU 官网榜单上表现最好的模型是来自 OpenAI 的 GPT-4o，准确率为 57.3%。紧随其后的是来自 Google DeepMind 的 Gemini 2.0 Flash，准确率为 55.6%。
来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为 49.2%。由于它的开源特性，小米大模型团队尝试使用一个较小的数据集，清华大学发布的 AVQA 数据集，对此模型做微调。AVQA 数据集仅包含 3.8 万条训练样本，通过全量有监督微调（SFT），模型在 MMAU 上的准确率提升到了 51.8%。
DeepSeek-R1 的发布为小米大模型团队在该项任务上的研究带来了启发。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法，让模型仅通过"试错-奖励"机制就能使自主进化，涌现出类似人类的反思、多步验证等推理能力。
小米大模型团队尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。最终，在仅使用 AVQA 的 3.8 万条训练样本的情况下，强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率，这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近10个百分点的优势。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

何小鹏：全新小鹏G6上市后，创造单日最高试驾数纪录！网友微博爆料：重庆小鹏汽车销售称自家智驾比不上问界

李开复：零一万物是首个全面拥抱DeepSeek模型的六小虎

deepseek的威力：2个月，英伟达跌了20%，4万多亿不见了

Startup NOETIX Robotics Launches Affordable Humanoid Robot Capable of Backflips

2025三国SLG游戏入坑首选快来《三国：谋定天下》招贤新服暴揍PDD！

千亿家电巨头高管集体“出道”：格力捆绑董明珠，美的招募企业家IP打造供应商

大模型叙事下的云计算：比创新更重要的，是创新的扩散

科学家找到了一种新方法减少打雷频率和船只有关

安踏能拉FILA一把吗？

小马智行与康福德高联合自动驾驶出行服务项目落地广州

前两月6000元以下手机销量约3300万台国补成效显著

母婴护理逆势大增20%+，谁在改写“存量市场”定义？

剑桥大学科学家推出VR演讲训练平台，助力演讲者缓解“社恐”情绪

刚准备减持，又改主意要合并！湘财股份拟吸收合并大智慧，两只股票今起停牌

600亿芯片巨头，停牌！

遭3·15晚会点名后交易所火速发函！知名上市公司85%产品靠代工？

A股收评：沪指窄幅震荡涨0.19% 两市成交额不足1.6万亿元

何小鹏：全新小鹏G6上市后，创造单日最高试驾数纪录！网友微博爆料：重庆小鹏汽车销售称自家智驾比不上问界

网友在何小鹏微博评论区爆料：小鹏销售称自家智驾比不上问界

茶饮品牌，在香港上演《古惑仔》

创业界新高！联想AMD AI服务器单机部署满血版DeepSeek大模型，极限总吞吐高达6708 token/s！

鸿蒙正式版新消息公布从日新迭代到构建万物互联

315曝光虾仁超标添加保水剂有网友投诉：五斤虾仁解冻只剩半斤

3月17日A股分析：沪指涨0.19%报3426.13点，两市合计成交15730.05亿元，涨幅最多的行业板块为采掘行业

iPhone 17 模具曝光，Pro系列增厚，外观配置大洗牌

手机国补怎么领怎么用？手机国补领取入口方法步骤时间和申请流程一览

九号N3城市通勤解决方案：越级智驾系统+全境光幕实测报告

全站最新

何小鹏：全新小鹏G6上市后，创造单日最高试驾数纪录！网友微博爆料：重庆小鹏汽车销售称自家智驾比不上问界

玉溪市“3·15”国际消费者权益日系列活动启幕

守护权益同筑消费和谐凝聚力量共创美好未来

第137届广交会首批进境展品顺利入境

李开复：零一万物是首个全面拥抱DeepSeek模型的六小虎

1688平台年度活跃买家数突破1亿，“让生意更简单”有何妙招？

deepseek的威力：2个月，英伟达跌了20%，4万多亿不见了

Startup NOETIX Robotics Launches Affordable Humanoid Robot Capable of Backflips

热门推荐

何小鹏：全新小鹏G6上市后，创造单日最高试驾数纪录！网友微博爆料：重庆小鹏汽车销售称自家智驾比不上问界

李开复：零一万物是首个全面拥抱DeepSeek模型的六小虎

deepseek的威力：2个月，英伟达跌了20%，4万多亿不见了

Startup NOETIX Robotics Launches Affordable Humanoid Robot Capable of Backflips

2025三国SLG游戏入坑首选快来《三国：谋定天下》招贤新服暴揍PDD！

千亿家电巨头高管集体“出道”：格力捆绑董明珠，美的招募企业家IP打造供应商

大模型叙事下的云计算：比创新更重要的，是创新的扩散

科学家找到了一种新方法减少打雷频率和船只有关

安踏能拉FILA一把吗？

小马智行与康福德高联合自动驾驶出行服务项目落地广州

前两月6000元以下手机销量约3300万台国补成效显著

母婴护理逆势大增20%+，谁在改写“存量市场”定义？

剑桥大学科学家推出VR演讲训练平台，助力演讲者缓解“社恐”情绪

刚准备减持，又改主意要合并！湘财股份拟吸收合并大智慧，两只股票今起停牌

600亿芯片巨头，停牌！