当前位置：首页 » 资讯 » 新科技 » 正文

豆包提出全新稀疏模型架构UltraMem，推理成本较MoE最高可降83%

IP属地北京 编辑：沈如风 IT之家 时间：2025-02-12 13:32:07

2 月 12 日消息，豆包大模型团队今日宣布，字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度较 MoE 架构提升 2-6 倍，推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law，证明其不仅具备优异的 Scaling 特性，更在性能上超越了 MoE。
实验结果表明，训练规模达 2000 万 value 的 UltraMem 模型，在同等计算资源下可同时实现业界领先的推理速度和模型性能，为构建数十亿规模 value 或 expert 开辟了新路径。
据介绍，UltraMem 是一种同样将计算和参数解耦的稀疏模型架构，在保证模型效果的前提下解决了推理的访存问题。实验结果表明，在参数和激活条件相同的情况下，UltraMem 在模型效果上超越了 MoE，并将推理速度提升了 2-6 倍。此外，在常见 batch size 规模下，UltraMem 的访存成本几乎与同计算量的 Dense 模型相当。
在 Transformer 架构下，模型的性能与其参数数量和计算复杂度呈对数关系。随着 LLM 规模不断增大，推理成本会急剧增加，速度变慢。
尽管 MoE 架构已经成功将计算和参数解耦，但在推理时，较小的 batch size 就会激活全部专家，导致访存急剧上升，进而使推理延迟大幅增加。
注：“MoE”指 Mixture of Experts（专家混合）架构，是一种用于提升模型性能和效率的架构设计。在 MoE 架构中，模型由多个子模型（专家）组成，每个专家负责处理输入数据的一部分。在训练和推理过程中，根据输入数据的特征，会选择性地激活部分专家来进行计算，从而实现计算和参数的解耦，提高模型的灵活性和效率。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI Agent竞技，RPA企业的智能化突围

遍地共享按摩椅，到底谁在用？

安卓“MagSafe”终于来了？苹果封锁是磁吸充电普及拦路虎

市值220亿的古茗和15万家倒闭的新茶饮门店

双面杨植麟

古茗上市，新茶饮改命？

假期戒断综合症的年轻人，开始对“土味小游戏”上瘾

运动鞋服市场进入“国产叙事”

山姆的中国学徒，要做自己的“瑞士卷”

开箱评测丨双平台兼容，轻松超至8000MT/s，墨云藏境DDR5国风内存评测

2月12日A股分析：沪指涨0.85%报3346.39点，两市合计成交16772.15亿元，资金流入最多的行业板块为半导体

开箱评测丨锐龙7 9700X绝佳拍档，神凝系列6000 CL28国风内存评测

刘晓庆出演微短剧，主流明星为何扎堆“下海“？

周鸿祎回应纳米AI不如DeepSeek：没啥羞愧的

开箱评测丨不止高频，神凝系列DDR5 6000 CL28国风内存评测

ColorOS 2月更新一览：情人节限定水印限时上线

善诊自研AI系统“善太医”全面接入DeepSeek

工信部5G建设成果显著，微美全息AI+5G-A技术革新高效赋能护航

ChatBI难以挖掘数据潜能，SwiftAgent成为企业转型升级更强动能

华为小艺助手网页端上线人人可用

旗下首款 240Hz OLED 超感曲面游戏显示器，联想拯救者 Pro34预热

联想预热 YOGA Air 32 AI 元启一体机，基于 Lunar Lake 平台

阿里与苹果股价盘前异动，传两公司将合作为国行版iPhone开发AI功能

苹果联手阿里，开发AI大模型，百度或出局？

麒麟信安全资子公司福建麒麟信安成立，涉足互联网数据服务领域

A股收盘 | 创业板指涨近2%，半导体板块大涨

科德数控：对DeepSeek等多款AI大模型本地化部署开展应用验证工作

全站最新

同级唯一DeepSeek加持奔腾小马2款新车型智趣上市

AI Agent竞技，RPA企业的智能化突围

遍地共享按摩椅，到底谁在用？

安卓“MagSafe”终于来了？苹果封锁是磁吸充电普及拦路虎

市值220亿的古茗和15万家倒闭的新茶饮门店

双面杨植麟

古茗上市，新茶饮改命？

假期戒断综合症的年轻人，开始对“土味小游戏”上瘾

热门推荐

AI Agent竞技，RPA企业的智能化突围

遍地共享按摩椅，到底谁在用？

安卓“MagSafe”终于来了？苹果封锁是磁吸充电普及拦路虎

市值220亿的古茗和15万家倒闭的新茶饮门店

双面杨植麟

古茗上市，新茶饮改命？

假期戒断综合症的年轻人，开始对“土味小游戏”上瘾

运动鞋服市场进入“国产叙事”

山姆的中国学徒，要做自己的“瑞士卷”

开箱评测丨双平台兼容，轻松超至8000MT/s，墨云藏境DDR5国风内存评测

2月12日A股分析：沪指涨0.85%报3346.39点，两市合计成交16772.15亿元，资金流入最多的行业板块为半导体

开箱评测丨锐龙7 9700X绝佳拍档，神凝系列6000 CL28国风内存评测

刘晓庆出演微短剧，主流明星为何扎堆“下海“？

周鸿祎回应纳米AI不如DeepSeek：没啥羞愧的

开箱评测丨不止高频，神凝系列DDR5 6000 CL28国风内存评测