当前位置: 首页 » 资讯 » 新科技 » 正文

Meta首席AI科学家杨立昆再次炮轰生成式AI|中企荐读

IP属地 北京 编辑:冯璃月 大力财经 时间:2025-02-22 17:30:34

中国企业家

中国企业家杂志

开源模型正缓慢而坚定地超越闭源模型

编译|吴莹 曹冰颖(实习)

来源|人工智能之趋势(YouTube)

头图来源|视觉中国

“放弃生成式模型,不研究LLM(大语言模型),我们没办法只通过文本训练让AI达到人类的智慧水平。”近日,meta首席AI科学家杨立昆(Yann LeCun)在法国巴黎的2025年人工智能行动峰会上再一次炮轰了生成式AI。

杨立昆认为,现有的大模型运行虽然高效,但推理过程是发散的,生成的token有可能不在合理答案范围内,这也是为什么有些大模型会产生幻觉。虽然现在的很多生成式模型让AI可以通过律师资格考试、解决数学问题,但并不能做家务,对于人类来说不用思考就能干的事情,对生成式AI来说很复杂。

他还表示,生成式模型根本不适合制作视频,目前大家看到的能生成视频的AI模型,并不能理解物理世界,它们只是在生成漂亮的图片。杨立昆支持的是能理解物理世界的模型,他提出了更适合预测视频内容的联合嵌入预测架构(JEPA),始终认为只有AI能真正理解物理世界,才能迎来比肩人类智慧水平的人工智能。

最后,杨立昆强调了开源人工智能平台的必要性,未来,我们将拥有通用虚拟助手,它们会调节我们与数字世界的所有互动。它们要会说世界上所有的语言,了解所有的文化、所有的价值体系以及所有的兴趣中心,这样的AI系统不可能来自硅谷的少数公司,必须以有效的方式协作完成这件事。

精彩观点如下:

1.我们需要人类水平的智能,因为我们习惯与人互动,我们期待出现具有人类智慧水平的AI系统,未来无处不在的AI助手将成为人类与数字世界的桥梁,帮助人类更好地与数字世界互动。

2.我们没办法只通过文本训练就能让AI达到人类的智慧水平,这是不可能发生的。

3.在meta,我们将这类能达到人类智慧水平的AI称为高级机器智能,我们不喜欢“AGI”(通用人工智能)的说法,而是叫它“AMI”,用法语念很像“朋友”这个词。

4.生成式模型根本不适合制作视频,大家可能见过能生成视频的AI模型,但它们并不真正了解物理,只是在生成漂亮的图片。

5.如果你对达到人类智慧水平的AI感兴趣,并且你在学术界,就不要研究LLM,因为你是在和数百个拥有数万个GPU的人竞争,没有任何意义。

6.AI平台需要共享,它们要会说世界上所有的语言,了解所有的文化、所有的价值体系以及所有的兴趣中心,世界上没有任何一个公司可以训练出这样的基础模型,必须以有效的方式协作完成。

7.开源模型正缓慢而坚定地超越闭源模型。

以下为分享全文(有删减):

为什么我们需要人类智慧水平的AI

众所周知,我们需要人类水平的人工智能,这不仅是个有趣的科学问题,也是一种产品需求。未来,我们将佩戴智能设备,比如智能眼镜,通过这些智能设备随时访问AI助手,与它们互动。

我们需要人类水平的智能,因为我们习惯与人互动,我们期待出现具有人类智慧水平的AI系统,未来无处不在的AI助手将成为人类与数字世界的桥梁,帮助人类更好地与数字世界互动。但是,与人类和动物相比,目前的机器学习还很糟糕,我们还没有制造出具备人类学习能力、常识和理解物质世界能力的机器。动物和人类都可以根据常识推进行动,这些行为本质上是由目标驱动的。

所以目前几乎所有人都在使用的人工智能系统并不具备我们想要的特征。因为它们是递归式地产生一个又一个tokens,然后用标记的tokens来预测下一个token。训练这些系统的方式是把信息放在输入端,然后在输出端试图让它重现输入端的信息。它是一个因果结构,不能作弊,也不能使用特定的输入来预测自身,只能看身边的tokens。所以它非常高效,人们称之为通用大模型,可以用它来生成文本、图片。

但这种推理过程是发散的,每次你生成一个token时,它都有可能不在合理答案范围内,而且可能让你离正确答案越来越远,如果发生这种情况,后续是没办法修复它的,这也是为什么有些大模型会产生幻觉,胡说八道。

现在这些人工智能还无法复制人类的智慧,我们甚至无法复制猫或老鼠等动物的智慧,它们都了解物理世界的运行规则,能完成一些靠常识就进行的动作,不需要规划。一个10岁的人类小孩不需要学习就能完成收碗筷和擦桌子的动作,一个17岁的青年花20小时就能学会开车,但目前我们还没能制造出一个能家用的机器人,这说明我们目前的人工智能研究和发展还缺少一些非常重要的东西。

我们现有的AI可以通过律师资格考试、解决数学问题、证明定理,但没法做家务。我们认为的那些不用思考就能干的事情,对人工智能机器人来说非常复杂,而我们认为是人类独有的东西,比如语言、下棋、创作诗歌等,现在的AI和机器人能轻松完成。

我们没办法只通过文本训练就能让AI达到人类的智慧水平,这是不可能发生的。一些既得利益者会说明年AI智力能到人类博士水平,但这根本不可能,AI可能在某个领域比如下棋、翻译等达到人类博士水平,但通用大模型是无法做到的。如果我们只训练这些专门针对某个领域问题的AI模型,要是你的问题很标准,那么答案在几秒时间内就能生成,但如果你稍微修改一下问题的表述,AI可能给出的还是相同的答案,因为它没有真正去思考这个问题。所以我们想要一个能达到人类智慧水平的人工智能系统,还需要时间。

不是“AGI”而是“AMI”

在meta,我们将这类能达到人类智慧水平的AI称为高级机器智能,我们不喜欢“AGI”(通用人工智能)的说法,而是叫它“AMI”,用法语念很像“朋友”这个词。我们需要用感官采集信息并学习的模型,可以在头脑中操纵它,从视频中学习二维物理。比如具有持久记忆的系统、可以分层规划行动的系统以及可以推理的系统,然后通过设计而不是微调来实现可控和安全的系统。

现在,我知道建立这类系统的唯一方法是,改变目前人工智能系统进行推理的方式。目前LLM的推理方式是通过运行固定数量的神经网络层(Transfomer)生成一个token并输入,然后再次运行固定数量的神经网络层。这种推理方式的问题是,不管你问一个简单还是复杂的问题,当你要求系统回复“是”或“否”时,它将花费同样多的计算来回答它们。所以人们一直在作弊,告诉系统该怎么回答,人类是知道这种推理思维技巧的,让系统产生更多token,这样就会花费更多的算力来回答问题。

实际上推理的工作方式不是这样的,在经典的统计学人工智能、结构预测等许多不同领域中,推理的工作方式是:你有一个函数来测量你的观察值和输出值之间的兼容性或不兼容性,推理过程包括找到将信息空间压缩到最小并输出的值,这种函数我们称之为能量函数。当结果不符合要求时,系统只会执行优化并进行推理,如果推理的问题更难,系统将花费更多时间进行推理,换句话说,它会花更长时间思考复杂问题。

在经典人工智能中很多事情都与推理和搜索有关,因此优化任何计算问题都可以简化为推理问题或搜索问题。这种类型的推理更类似于心理学家所说的系统2,就是在你采取行动之前,先考虑会如何去做,系统1就是那些可以不假思索去做的事情,这会变成一种潜意识。

视频截图

我简单解释一下能量模型,就是我们可以通过能量函数来捕捉变量之间的依赖性,假设观测值X和输出值Y,当X和Y兼容时,能量函数取低值,当X和Y不兼容时,能量函数取高值。你不想只从X计算Y,只想要一个能量函数来衡量不兼容的程度,你就给定一个X,找到一个能量较低的Y就行。

现在让我们详细了解一下世界模型这种架构是如何搭建的,它与思考或规划有什么关系。这个系统是这样的,观察世界要经过一个感知模块,这个模块会对世界的状态做出概括,当然,世界的状态并不是完全可观察的,所以可能你需要把它和记忆结合起来,记忆的内容包含你对世界状态的想法,这两者的结合构成一个世界模型。

那什么是世界模型呢?世界模型给出了对当前世界状态的概括,它在一个抽象的演示空间中,给出了一个你想象的行动顺序,你的世界模型预测了在你采取这些行动之后世界的状态。如果我告诉你想象一个立方体漂浮在你面前,现在把这个立方体垂直旋转90°,它看起来像什么?你很容易就能够在脑海里想象它旋转后的样子。

我认为在拥有真正能工作的音视频之前,我们将拥有人类水平的智能。如果我们有这个世界模型,它能够预测一系列动作的结果,我们可以将其输入到一个任务目标中,用于衡量预测最终状态在多大程度上满足我们为自己设定的目标。这只是一个目标函数,我们还可以设置一些约束条件,把它们看作是系统安全运行需要满足的要求。有了这些约束条件,就能保证系统的安全性,让你无法越过它们,它们是被硬性规定的,不在训练和推理的范围内。

现在一系列动作应该使用一个世界模型,在多个时间步骤中反复使用,如果你执行第一个动作,它预测动作完成后的状态,你做第二个动作它再预测下一个状态,沿着这条轨迹进行下去,你还可以设定任务目标和约束条件。如果世界不是完全确定和可预测的,那么世界模型可能需要有潜在变量来解释我们未观察到的所有关于世界的事情,这使得我们的预测存在偏差。最终,我们想要的是一个可以分层规划的系统。它可能有几个抽象层次,在低层次上我们计划低层次的动作,比如基本的肌肉控制。但在高层次上,我们可以规划抽象的宏观行动。比如我坐在纽约大学的办公室里,决定去巴黎。我可以把这个任务分成两个子任务:去机场和赶飞机。然后详细地规划每一步动作:拿包、出门、打车、乘电梯、买机票……

这些事情我们经常感受不到自己在做分层规划,几乎都是下意识的动作,但我们不知道如何让机器学习做到这一点。几乎每个机器学习过程都会进行分层规划,但每个层次的提示都是手工输入的,我们需要训练一种架构,让它自己可以学习这些抽象的演示,不仅是世界状态,还包括预测世界模型,还可以预测不同抽象层次上的抽象动作,这样机器学习就能像人一样无意识做到分层规划。

如何让AI理解世界

我带着所有这些反思,在三年前写了一篇长论文,解释了我认为人工智能研究应该关注的领域。在ChatGPT爆火之前,我就写出了这篇论文,直到今天,我对这个问题的看法依然没有变,ChatGPT没有改变任何事情。那篇论文写的是关于通往自主机器智能的道路,我们现在称之为高级机器智能,因为“自主”二字会吓到人们,我在不同场合都以演讲的方式介绍过它。

想让系统理解世界是如何运转,一个常用的方法就是按照过去我们用来训练自然语言系统的过程去训练,并将其应用于视频,如果一个系统能够预测视频中会发生什么,你给它展示一小段视频,然后让它预测接下来会发生什么,训练它做出预测实际上可以让系统理解世界的底层结构。它适用于文本,因为预测单词相对简单,单词数量有限,可以标记的数量也有限,我们无法准确预测哪个单词会跟在另一个单词后面,或者文本中缺少哪个单词,但我们可以为字典中每个单词可能生成的概率进行测算。

但我们不能对图像或视频这样做,我们没有很好的方法来表示视频帧的分布,每次尝试这样做基本上都会遇到数学难题。所以,你可以尝试用物理学家发明的统计学和数学来解决这个问题,事实上,最好是完全抛弃进行概率建模的想法。

因为我们无法准确预测世界将会发生什么。如果训练一个系统只预测一帧,它不会做得很好。所以解决这个问题的方法是开发一种新架构,我称之为联合嵌入预测架构(JEPA)。生成式模型根本不适合制作视频,大家可能见过能生成视频的AI模型,但它们并不真正了解物理,只是在生成漂亮的图片。JEPA的理念是同时运行观察值和输出值,这样就不再只是预测像素,而是在预测视频中发生的事情。

让我们来比较下这两种架构。左边是生成架构,你将X即观察值输入编码器,然后对Y做出预测,这是一个简单的预测。而右边的JEPA架构中,你同时运行X和Y以及可能相同或不同的编码器,然后根据这个抽象空间中X的表示来预测Y的表示,这将导致系统基本上学习一个编码器,它可以消除所有你无法预测的东西,这是我们真正做的事情。

当我们在房间里拍摄时,摄像机开始移动,不管是人类还是AI智能都无法预测下一帧图片里会出现什么人,墙壁或地板的纹理是怎样的,有很多事情我们根本无法预测。因此,与其坚持要求我们对无法预测的事情做出概率预测,不如放弃预测它,学习一种表示,其中所有这些细节基本上都被消除,这样预测就简单多了,我们简化了问题。

JEPA架构有各种风格,这里先不讨论那些潜在变量,而是谈谈动作条件,这是最有趣的部分,因为它们真的是世界模型。你有一个观察值X是世界的当前状态,将你计划要做的动作输入编码器中,这个编码器就是世界模型,让它给你预测做了这个动作后世界的状态表示,这就是你如何进行规划的方式。

近期,我们对Video JEPA进行了深入研究。该模型是如何运行的呢?举个例子,首先从视频提取16个连续帧作为输入样本,随后对部分帧进行屏蔽和破坏,再将这些被局部破坏的视频帧输入编码器,并同步训练一个预测模块,使其能够基于残缺的画面信息重构出完整的视频表征。实验表明,这种自监督学习方法具有显著优势,其学习到的深层特征可直接迁移至视频动作分类等下游任务,在多项基准测试中均取得优异表现。

有一件非常有趣的事情,如果你展示这个系统,视频中发生了一些非常奇怪的事情,这个系统实际上是在告诉你它的预测误差正在飙升。你拍摄了一个视频,取其中的16帧来测量系统的预测误差,如果发生一些奇怪的事情,比如一个物体自发消失或改变形状,预测误差会上升,它告诉你,尽管系统很简单,但它已经学会了一定程度的常识,它可以告诉你世界上是否发生了一些非常奇怪的事情。

我想分享我们最新的工作——DINO-WM(一种无需重建视觉世界即可建立视觉动态模型的新方法)。用一张世界图片来训练一个预测器,然后通过DINO编码器运行,最后机器人可能做出一个动作,这样就能得到视频的下一帧,将这一帧图像再次放入DINO编码器运行,得出新的图像,然后训练你的预测器,根据所采取的行动预测将要发生的事情。

规划起来非常简单,你观察一个初始状态,放入DINO编码器运行起来,然后用想象的动作再多个时间点和步骤中运行世界模型,然后你有一个目标状态,它由目标图像表示,例如你将其运行到编码器,然后计算预测状态和表示目标图像的状态在演示空间中的差距,找到一个运行成本最小的动作序列。

视频截图

这是一个非常简单的概念,但效果很好。假设你有这个小T形图案,想把它推到一个特定的位置,你知道它必须去哪个位置,因为你把那个位置的图像放到了编码器中,它会给你一个演示空间中的目标状态。当你采取一系列计划好的动作时,在现实世界中实际发生了什么,你看到的是系统计划的动作序列的内部心理预测,将其放入解码器中,会产生内部状态的图形表示。

请放弃研究生成式模型

最后我有一些建议分享给大家。首先就是放弃生成式模型。这是目前最流行的方法,每个人都在研究这个。可以研究JEPA,这不是生成式模型,它们在演示空间中预测世界会发生什么。放弃强化学习,我已经说了很长时间了,它是低效的。如果你对达到人类智慧水平的AI感兴趣,并且你在学术界,就不要研究LLM,因为你是在和数百个拥有数万个GPU的人竞争,没有任何意义。学术界还有很多问题需要解决,规划算法效率很低,我们必须想出更好的方法,带有潜在变量的JEPA在不确定性分层规划中是完全未解决的问题,这些都欢迎学者探究。

在未来,我们将拥有通用虚拟助手,它们会一直陪伴我们,调节我们与数字世界的所有互动。我们不能让这些AI系统来自硅谷或中国的少数几家公司,这意味着我们构建这些系统的平台需要的是开源且可广泛使用。这些系统的训练成本很高,可一旦你有了一个基础模型,针对特定应用程序进行微调就相对便宜多了,很多人都负担得起。

AI平台需要共享,它们要会说世界上所有的语言,了解所有的文化、所有的价值体系以及所有的兴趣中心,世界上没有任何一个公司可以训练出这样的基础模型,必须以有效的方式协作完成。

因此,开源人工智能平台是必要的。我在欧洲和其他地方看到的危机是,地缘政治竞争诱使部分国家政府基本上将开源模型的发布定为非法行为,因为他们想保守科学秘密,以保持领先地位。这是一个巨大的错误,当你秘密进行研究时,你会落后,这是不可避免的,将会发生的事情是,世界上其他国家都采用开源技术,我们将超越你们。这是目前正在发生的事情,开源模型正缓慢而坚定地超越闭源模型。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新