当前位置: 首页 » 资讯 » 新科技 » 正文

DeepSeek-R1启发下,小米大模型团队登顶音频推理MMAU榜

IP属地 北京 编辑:陆辰风 IT之家 时间:2025-03-17 20:31:43

小米技术官微今日(3 月 17 日)发文称,小米大模型团队在 音频推理领域取得突破性进展。

受 DeepSeek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便 以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。

DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法, 让模型仅通过"试错-奖励"机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。

该团队尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。

在仅使用 AVQA 的 3.8 万条训练样本的情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。

尽管当前准确率已突破 64%,但距离人类专家 82% 的水平仍有差距。

有趣的是,官方提供的交互 demo 中,默认分析的便是 雷总 2015 年“R U OK”的视频。

家友们可以前往了解更详细的官方介绍原文。

对了,别忘了今天还有《微信 iOS 版灰度放量,PC 版再迎更新等文章,以及:

RL 强化学习潜力无穷 ↓ ↓ ↓

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新