11 月 8 日,meta 公布了他们在智能手机上运行的 Small Language Model (MobileLLM) 家族的开源计划。他们新增了 600M、1B 和 1.5B 三种不同参数版本,这是为了适应用户对高效表现的需求。据 meta 的研究人员介绍,MobileLLM 模型家族采用了精简架构,并引入了“SwiGLU activation function”和“grouped-query attention”机制,以实现兼顾效率与表现成果的目标。
与此同时,meta 研究人员称,在32颗Nvidia A100 80G GPU服务器环境下进行的实验表明,MobileLLM 1.5B 版本仅需18天就能完成训练任务,而125M 版本只需3天。从结果来看,MobileLLM 125M和350M两款模型在零样本常识理解任务中的准确率比Cerebras、OPT、BLOOM等State of the Art(SOTA)模型分别高出2.7%和4.3%。
meta的研究人员还表示,他们将MobileLLM-1.5B与其他业界参数量更大的模型进行了比较,并发现其在测试结果方面领先于GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B等模型。