当前位置: 首页 » 资讯 » 新科技 » 正文

Meta公布MobileLLM 1.5B参数量大、性能强

IP属地 北京 编辑:孙雅 中关村在线 时间:2024-11-08 19:00:27

11 月 8 日,meta 公布了他们在智能手机上运行的 Small Language Model (MobileLLM) 家族的开源计划。他们新增了 600M、1B 和 1.5B 三种不同参数版本,这是为了适应用户对高效表现的需求。据 meta 的研究人员介绍,MobileLLM 模型家族采用了精简架构,并引入了“SwiGLU activation function”和“grouped-query attention”机制,以实现兼顾效率与表现成果的目标。

与此同时,meta 研究人员称,在32颗Nvidia A100 80G GPU服务器环境下进行的实验表明,MobileLLM 1.5B 版本仅需18天就能完成训练任务,而125M 版本只需3天。从结果来看,MobileLLM 125M和350M两款模型在零样本常识理解任务中的准确率比Cerebras、OPT、BLOOM等State of the Art(SOTA)模型分别高出2.7%和4.3%。

meta的研究人员还表示,他们将MobileLLM-1.5B与其他业界参数量更大的模型进行了比较,并发现其在测试结果方面领先于GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B等模型。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新