【头部财经】昨日凌晨,meta发布了备受瞩目的Llama 2,迅速在社交媒体引发热议。OpenAI的研究科学家Andrej Karpathy在推特上表示,“对于人工智能和LLM来说,这是非常重要的一天。这是目前最强大的LLM,可以将权重提供给所有人使用。”
对于开源社区来说,Llama 2是一举成为"全村的希望"。它的出现将进一步缩小开源和闭源大型语言模型之间的差距,使每个人都有机会基于它构建自己的大型模型应用。
过去24小时,Llama 2成为社区成员关注的焦点。人们讨论着它的性能、部署方法以及可能带来的影响。为了让大家第一时间了解这些信息,我们在本文进行了总结。
Llama 2的性能如何?
首先,让我们了解一下Llama 2的基本信息:
‧ 参数变体包括70亿、130亿和700亿,此外还有提到未发布的340亿参数变体。
‧ 训练过2万亿tokens,相比Llama 1,训练数据增加了40%;Chat模型在100万人类标记数据上进行了细调。
‧ 上下文tokens长度增加一倍,从2048增加到4096。
‧ 免费使用,但产品的日活跃用户超过7亿需单独申请商用权限。
Llama 2发布后,Llama项目的Github star数量快速接近3万。
在meta发布的论文中,我们可以看到Llama 2的性能表现:
‧ Llama 2 70B在MMLU和GSM8K上的得分接近GPT-3.5,但在编码基准方面仍存在明显差距。
‧ 在几乎所有基准测试中,Llama 2 70B的表现与Google的PaLM(540B)相当甚至更好,但与GPT-4和PaLM-2-L相比仍有较大差距。
也就是说,即使是参数最大的Llama 2 70B,性能仍未超过GPT-3.5,距离GPT-4有较大差距。
为了测试Llama 2的实力,人们纷纷进行了各种测试,比如要求它基于一些"荒唐"的信息写一封公司邮件。
还有人开始在直播中比较Llama 2和其他ChatGPT类产品的性能。
在测试过程中,人们发现了一些问题,比如Llama 2接受的强化学习人工反馈(RLHF)似乎太多了,导致它非常守规矩。
在一位开发者制作的免费应用程序中,Machine Learning研究者也体验了一下Llama 2的能力。
首先,我们问Llama 2能做什么?Llama 2回答道:“我可以帮助你处理各种任务,如回答问题、提供信息,甚至帮助你完成日常任务。我只是一个人工智能,无法在现实中执行任务,但我可以提供所需的信息或帮助…”。从语言上看,Llama 2支持中文输入,但回答基本上都是用英文,其中文理解和生成能力有限。
接着,我们询问Llama 2的数据覆盖截止日期。从Llama 2的回答中,我们得知它掌握的数据截止于2022年12月。
之后,我们向Llama 2提了一个不太相关的问题,Llama 2指出了标题的不合理性,并给出了一些建议。
不过,Llama 2在鸡兔同笼问题上还不擅长。
各种测试数据和结果如下:
哪些设备能够本地运行这些模型?
由于Llama 2开源了多个大小的模型版本,这些模型在本地部署方面非常灵活。如果不想将自己的数据上传到互联网,那么本地部署是最好的选择。这个想法可以通过陈天奇等人开发的MLC-LLM项目实现。
MLC-LLM项目旨在让大型语言模型可以在任何设备上编译和运行,包括移动设备、消费级计算机和Web浏览器。支持的平台包括:
在Llama 2发布后,陈天奇等项目成员表示,MLC-LLM现在支持在本地部署Llama-2-70B-chat(需要搭载有50GB VRAM的Apple Silicon Mac)。在M2 Ultra上,解码速度可达到约10.0 tokens/秒。
当然,借助MLC-LLM,运行其他版本的Llama 2模型也是轻而易举的。在Apple M2 Max上,7B模型的运行速度约为46 tok/s,在RTX 4090上约为156 tok/s。
此外,借助陈天奇等人发布的"MLC Chat"应用程序(可在苹果应用商店搜索),我们可以在手机和iPad上尝试使用Llama 2(无需联网)。
Llama 2将带来哪些影响?
如果meta没有在今年2月份开源Llama,可能很多人都不会意识到羊驼有这么多不同的写法:基于这个开源模型的"二创"项目几乎占据了羊驼属的所有英文单词。随着meta将模型迭代至2.0版本,这些项目也进入了新的起点。
Llama 2发布不到一天后,能够像GPT-4一样处理图像信息的大型多模态模型"LlaVA"的开发者宣布,他们已基于Llama 2对LlaVA进行了更新。新版本增加了对LLaMA-2的支持,同时支持使用学术界的GPU进行LoRA训练,以及更高分辨率(336x336)和4-/8-倍推理速度等功能。
此外,他们还发布了LLaVA变体的预览版本,该版本基于最新的经过RLHF微调的LLaMA-2-Chat检查点,提供了更长的上下文窗口。这些新发布版本支持并验证了在RTX 3090和RTX A6000上进行的训练,使得大型多模态模型的训练更加方便,更加适用于广大社区用户。
当然,这只是一个开始。随着时间的推移,基于Llama 2的模型将陆续上线或进行更新,"千模大战"即将开始。
对于开发闭源大型模型的企业来说,Llama 2的发布也具有重要意义。如果他们研发的模型本身不够强大,或者与开源的Llama 2及其衍生模型差距不大,那么其商业价值将很难实现。
这一开源的强大大型语言模型Llama 2的发布正彰显开源力量的无穷魅力,并将进一步推动多模态人工智能和机器人技术的研究。它的权重是开放的,解决了API的黑盒问题,为开发者们提供了更多可能性。Llama 2的未来发展备受人们关注,这是开源社区不可估量的力量所带来的成果