当前位置：首页 » 资讯 » 新科技 » 正文

继DeepSeek后，MiniMax也发布了挑战传统Transformer架构的国产开源模型

IP属地北京 编辑：唐云泽蓝鲸财经 时间：2025-01-15 20:01:34

1月15日讯（记者朱俊熹）国产开源大模型再添一员强将。1月15日，大模型独角兽MiniMax发布并开源了MiniMax-01全新系列模型，包含基础语言大模型和视觉多模态大模型两个模型。
据MiniMax介绍，其基础语言大模型MiniMax-Text-01在多数任务上，追平了GPT-4o、Claude 3.5 Sonnet这两个海外公认最先进的闭源模型。在评估模型指令遵循能力的IFeval和C-SimpleQA中文评测集中，该基础语言大模型的得分也超过了另一国产开源模型DeepSeek-V3。
与DeepSeek模型类似，MiniMax的新系列模型也对传统的Transformer架构进行了创新。MiniMax称，在模型中首次大规模实现了线性注意力机制，每8层中有7个是基于Lightning Attention的线性注意力，有一层是传统的SoftMax注意力。
通俗来讲，如果比喻成要在一群人中找到最重要的那个，传统注意力需要每个人跟其他人都单独聊一遍，逐一比较所有人的重要性。而线性注意力只用查看每个人手中的名片，快速统计出哪些人持有的信息是最重要的。因此，传统注意力机制精准但计算繁重，适合短输入或复杂任务，而线性注意力以其高效更适合超长输入、需要快速处理的任务。
MiniMax在技术报告中提到，正在研究更高效的模型架构，希望能够完全去除SoftMax注意机制，从而实现无限长的上下文窗口，而不会增加计算开销。
幻方量化旗下AI公司DeepSeek在12月底发布了V3开源模型，采用的是创新的多头潜在注意力机制（MLA）和DeepSeekMoE混合专家架构。在节省内存占用和计算资源的同时，确保资源被高效利用。DeepSeek-V3以极低的训练成本实现了对齐领军闭源模型的性能，引发国内外科技社区热议。不仅被前OpenAI联创Andrej Karpathy赞为“在资源受限的情况下对研究和工程的一次令人印象深刻的展示”，也被OpenAI列作中国AI技术快速发展的范例。
围绕线性注意力机制，MiniMax对模型的训练和推理系统进行了重构。其模型包含4560亿个参数，单次推理激活459亿个。能够高效处理最长400万token的上下文，是GPT-4o的32倍，Claude 3.5 Sonnet的20倍。在长上下文的测评集上，MiniMax-Text-01的表现显著领先于其他开闭源模型。
图片MiniMax官网
MiniMax表示，01系列模型将能够支持未来一年内智能体应用的大幅增长需求，因为智能体系统越来越需要更长的上下文处理能力和持续的记忆。“我们相信2025年会是Agent（智能体）高速发展的一年。”该公司称，“在这个模型中，我们走出了第一步，并希望使用这个架构持续建立复杂Agent所需的基础能力。”
智能体正成为国内外AI公司竞相押注的赛道。OpenAI CEO Sam Altman本月初发文称，到2025年，将可能看到第一批AI智能体“加入劳动力队伍”，并实质性地改变公司的产出。谷歌在推出新一代Gemini 2.0大模型时也表示，这是为智能体时代构建的。该模型主打支持多模态输入和输出，以构建出更接近通用助手愿景的智能体。
MiniMax在阐述为何选择将模型开源时提到，一是认为这有可能启发更多长上下文的研究和应用，从而更快促进智能体时代的到来。二是通过开源促使其努力做更多创新，更高质量地开展后续的模型研发工作。
MiniMax成立于2021年12月，被普遍称为国内“大模型六小龙”之一。旗下拥有AI陪伴应用星野，以及集成了对话、视频、音乐功能的海螺AI等代表性产品，在海外市场积累了一定热度。其最新披露的一轮融资还是在去年3月，由阿里领投的6亿美元B轮融资，公司估值达25亿美元。此前腾讯、米哈游、高瓴创投等机构也参投了MiniMax。
六小龙中，各公司的大模型开源进度不一。其中，百川智能、智谱AI、零一万物开源了多款模型，涵盖大语言模型、多模态模型等。而月之暗面、阶跃星辰仅开源了部分技术，例如月之暗面联合清华大学等机构开源的大模型推理架构Mooncake，以及阶跃星辰专注提升光学字符识别（OCR）技术的GOT-OCR2.0模型。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

等了16年！李宁“抢”回中国奥委会合作权益，创始人李宁千字内部信曝光

小米超级小爱升级计划公布：小米13/K60等也能用上 1月27日前推送

vivo总裁沈炜：在热爱中前行，始终把对人的关切置顶

任天堂“Alarmo”体感闹钟将于 3 月开售，99.99 美元

澳网出奇招吸引球迷：YouTube 直播赛事中选手化身“卡通小人”

重组，停牌！提前大涨

消费电子热度延续！丘钛科技受业绩提振一度涨近14%

收益率超4% 专属商业养老保险值得投吗？

卓越新能：2024年净利同比预增90.81%

赛迪顾问：算力核心产业规模今年有望突破1.5万亿元

第八届中关村国际前沿科技大赛互联网3.0领域赛圆满结束

微软Azure OpenAI企业账户申请？

赵健：AI大模型行业蓬勃发展，是我国新质生产力突出的亮点

深夜狂拉！美联储降息预期突变！

绍兴黄酒龙头打自己脸，古越龙山2024年净利预计“腰斩”，亟需走出包邮区

张雪峰谈女儿就业，“带资进行”真的能在银行舒服地“躺着”吗？ | 金融

A股首份估值提升计划，来了！

TikTok用户“逃”往小红书，服装企业接住泼天富贵，爱慕股份和歌力思收下近15亿的“馅饼”

3999元 OPPO Find X8系列降价：可叠加国补同档最香的天玑旗舰

威焙推出 Smoque 智能烤炉：手机即可监控烹饪过程，699 美元起

华为概念公司武汉敏声投入慈星股份怀抱，漩涡中的庚星股份错失良缘

95后空姐裸辞养猪竟然月入20万？制服一穿，猪胖三圈！

被米粉“逼”出的小米新品来了！会引爆家用NAS市场吗？

光伏行业寒冬加剧新特能源终止A股上市申请

超千亿“春节红包”即将到账！A股公司，大手笔！

柏荟医疗因高额提成被罚325万元医美行业合规经营再敲警钟

TCL科技豪掷134亿元收购LG旗下两家工厂财务压力与质疑并存

全站最新

等了16年！李宁“抢”回中国奥委会合作权益，创始人李宁千字内部信曝光

小米超级小爱升级计划公布：小米13/K60等也能用上 1月27日前推送

vivo总裁沈炜：在热爱中前行，始终把对人的关切置顶

任天堂“Alarmo”体感闹钟将于 3 月开售，99.99 美元

小米YU7中大型SUV申报图亮相，单电机版来袭，6-7月或将上市！

MG ES5焕新归来，舒适续航双升级，能否成为纯电SUV新宠？

澳网出奇招吸引球迷：YouTube 直播赛事中选手化身“卡通小人”

MG ES5新车发布：感性设计融合智能科技，起售价9.99万值得一看吗？

热门推荐

等了16年！李宁“抢”回中国奥委会合作权益，创始人李宁千字内部信曝光

小米超级小爱升级计划公布：小米13/K60等也能用上 1月27日前推送

vivo总裁沈炜：在热爱中前行，始终把对人的关切置顶

任天堂“Alarmo”体感闹钟将于 3 月开售，99.99 美元

澳网出奇招吸引球迷：YouTube 直播赛事中选手化身“卡通小人”

重组，停牌！提前大涨

消费电子热度延续！丘钛科技受业绩提振一度涨近14%

收益率超4% 专属商业养老保险值得投吗？

卓越新能：2024年净利同比预增90.81%

赛迪顾问：算力核心产业规模今年有望突破1.5万亿元

第八届中关村国际前沿科技大赛互联网3.0领域赛圆满结束

微软Azure OpenAI企业账户申请？

赵健：AI大模型行业蓬勃发展，是我国新质生产力突出的亮点

深夜狂拉！美联储降息预期突变！

绍兴黄酒龙头打自己脸，古越龙山2024年净利预计“腰斩”，亟需走出包邮区