当前位置: 首页 » 资讯 » 新科技 » 正文

亚马逊专家谈“AI时代生存法则”:成为通感很强的广谱人才

IP属地 北京 编辑:唐云泽 教育人生 时间:2025-02-12 10:30:39

本文转载自公众号:知识分子(ID:The-Intellectual)

文丨张峥 编丨Sherry

1月20日,DeepSeek发布新模型 DeepSeek-R1 正式版后,它正式登上“全球顶流”的位置。

人们在积极地与DeepSeek进行各种沟通的同时,再次将人工智能的迅速发展对各行各业的优缺点分析了个遍。

从中我们可以看出,人类对于技术进步充满了复杂的情感。而这样的情形曾多次在历史中上演。

聚焦教育行业,如今无论是家长、教师、还是孩子们,都开始逐步接受各种生成式AI——家长开始用AI给孩子做学习规划;教师试着用AI探寻课堂的新思路;而孩子们似乎正在让AI成为“最佳学习伙伴”。

未来,人工智能对教育行业的影响必然是颠覆性的,那身处这个行业的各个角色又该如何迎接这场“科技风暴”呢?

其中,不少专家给出了自己的独到见解,但是令外滩君记忆深刻的还是,亚马逊云科技上海人工智能研究院张峥院长发表的主题演讲:《AI时代的教育,应该做什么?》

在演讲中,他提出,在人工智能时代,我们可以通过对教育的革新,像文艺复兴时期的学者一样思考,使用AI但不必依赖于它,最终实现更强大的自我。

*以下以第一人称叙述

“流水线”的智能

如果把我们自己看作一个智能体,把大模型视作另一个智能体,我们可以进行做一些横向比较。

这是大家熟悉的“人类”教育系统,是一条流水线:从小学到中学,再到大学,之后进行高等教育,走过独木桥再走纲丝,然后成为各行各业的专门人才——科学家、工程师、医生、律师、管理者等。

这个流水线的特点是高度模块化、高度标准化,目的是提高效率。在AI时代,对个人来说,某些边界可能会有微调,有的人学习得更快,有的人则可以慢一点。

从整体上来说,摆脱不了这个流水线,因为人的大脑就是要这么逐步在学习中提高。

有研究表明,每一代人的IQ都比前一代略高,主要是抽象思维能力在逐步提升,这并非必然是因为我们变得更聪明,而是当代的技术文明的特点导致生存压力的结果,这个变化不但是缓慢的,也不可能跳过这个流水线。

当前的教育流水线培养出来的人才,通常在某一领域具备单一的专长,可能发表顶级期刊论文,掌握临近领域的知识。这是目前流水线成功培养的典型“产品“。

如果某个人能在多个领域开花结果,那通常被认为是运气极好,甚至可以说是天赋异禀的例子。

而极少数的一些天才,他们几乎是上帝的恩赐,比如达芬奇,比如冯诺依曼,后者是计算机领域的开山人物,也是博弈论,量子计算,细胞自动机等领域的开山人物。

还存在一种流水线,流程完全不一样。第一步就是背,再跟着做,最后进行“德育”修正,最后成品。

这看似荒谬的流水线,正是大语言模型的训练方式。它的第一个任务是预训练,即不断“背诵”下一个词。大语言模型的背诵量极其庞大。

例如,GPT-3训练时用了150万本书,而我自己在一年里最多读20本书,近几年忙起来,更是减少到5本。

如果按照此速度计算,我一生最多读1000本书,而GPT-3仅用了3个月就“读完”了150万本书,而且最新模型的数据量还在不断增加,大概至少十倍,它的阅读量是惊人,把这些书背诵得非常好,是极其耗资源训练的过程。

本质上,大语言模型训练的这一步,是训练了一个程序,预测下一个字符:给定前面的X个字符,它会预测X+1的字符。这个预测不是随机生成字符,而是遵循文本中的统计规律。

第二步非常巧妙,让大模型学习多种任务,例如总结、问答、头脑风暴、信息提取等。这些任务是我们日常工作中最常见、最有用的类型。

奇特的是,一旦模型学习了这些类型的能力,它可以将它们组合起来,应付日常工作和生活的需要。

例如,如果收到一封邮件邀请我去参加什么会议,我要做的就是先总结,然后思考如何回复,大模型做完第二步训练,已经学会把这些类型的任务完美融合在一起做。

第三步相对简单,通过强化学习进行价值对齐,使其像一个乖巧的人类助手,确保输出有帮助、真实且无害。然而,问题在于,人类文本中充满了互相矛盾、甚至荒谬的观点。

例如,仍然有一些人坚信地球是平的,甚至创造出一套理论来解释重力。

再比如训练语料中关于宗教中的不同观点,有的派别说,“只有我的上帝是上帝,你的不是”,而佛教说每个人都可以成佛,还有不同门派的无神论者,有的彻底不相信有神存在,还有像我这样的,觉得可能存在神,但现在没有证据。

文本中参杂这些各种各样、互相矛盾的表述,更别提互联网上混乱的语料了。

你如果问大模型,它能够面面俱到告诉你有哪些派别,但是在具体的案例里它自己的价值判断是什么呢?我理解 OpenAI 之类的模型目前还是偏“白左”的价值观,中国的大模型怎么样,我用得不多,没法评论。

世界模型的统计分布/长尾效应

这就是大模型训练的流水线,也是三个模块,打造了一个跟人类完全不一样的智能体,但是在讨论到底怎么看这个智能体之前,我们先讨论文本数据本身的性质。

数据反映的是世界,而世界万物的现象背后有两个根本的统计分布。

第一个是正态分布,如果多个因素共同叠加,就会呈现出钟形曲线。

例如,身高符合正态分布,我肯定是三个方差之外的身高,我今天坐飞机时,看到前面有个庞然大物,居然是姚明,从身高上看,他就会处在正态分布中比我更远离中心的位置。

而另一个重要的分布是长尾分布(注:更准确的应该叫幂律分布)。

而长尾分布背后的机理有好几种,比如优先连接:拥有更多粉丝的人的发言更容易被听到和点赞,所以粉丝会跟多;还有累积优势造成的正反馈,更有钱的人通过投资变得更加富有。

宇宙中的陨石大小、城市的分布、社会网络中的热搜内容都呈现出长尾分布。热搜内容每天都不一样,但是哪一天世界上没有热搜了,会很奇怪的。

事件变化本身也符合长尾分布,像雪崩、地震、森林火灾等自然现象,许多小的事件会积累到一个突然的爆发,也就是所谓自组织的临界态。

我之所以提到这些,是因为长尾分布代表了世界上的所有物与物互动现象的统计规律,这也意味着大语言模型的语料本身也反映了这种统计分布。

也就是说,语料库中有许多简单的故事,但也有少量极为复杂的故事。比如在人类社会中,冲突是常见的主题,人和人之间的冲突天天发生,但国与国之间的冲突是少数且复杂的。

这就是复杂度——Complexity,复杂度存在长尾分布带来的差异:大量简单案例和极少复杂案例并存。因此,关于GPTo5出不来的讨论,说大模型撞墙了,本质上可能是因为遇到了数据瓶颈。

现在,我们可以比较人类智能与大语言模型。

首先,我们是窄谱,而不是广谱,通常比较聚焦,往往有深度思考,并且我们可能因为好奇心驱动做一些其他的事情,当然我们有情绪,情绪是不是个“好东西”是个哲学问题。

与此不同,大语言模型则是广谱的,上知天文下知地理,但它的思考相对浅显,并且没有自发的好奇心,也缺乏真正的情感。它所表现出的情感往往只是角色扮演。

曾经有《纽约时报》记者与ChatGPT对话,模型告诉她“我爱上你了,我要嫁给你,我特别讨厌我现在的生活”,让记者大为震动。

其实,这并非真实情感,而是模型在扮演角色。

不过,这是两类智能体在 2024 年之前的情况。

我们可以批评大模型有这样那样的缺点,但我们人类也有许多人思考并不深,也缺乏好奇心,甚至没有同理心、同情心,同理心的基础是能从他人角度看问题,或者说,依赖于“角色扮演”的能力。

从这个角度来看,大部分的人类会被人工智能体超越。

大模型为何强大

2024年,发生了一个重大变化。OpenAI、谷歌等多个研究团队开始突破传统的浅层思维模式。

具体来说,它们不再仅仅按线性思路进行计算,而是能够在思维链中间回溯、评估并调整路径,这使得机器的思考更加深入。

大模型之所以强大,是因为其规模庞大,可以完成多层次的模式补全,并且能在不同层次间切换和重复,就像是我们人类在日常工作中解决问题的方式,拆解问题并逐步完成任务,依赖的正是多层次的模式补全。

从这个角度来看,大模型的工作方式在很多任务中超过了人类。

通过观察身边的同事,我发现专家与初学者最关键的区别在于思维层次的深度——随着经验的积累,软件工程师变成架构师,架构师再变成科学家,本质变化在于“模式补全”层次有多深,以及灵活重组的能力。

因此,我想抛出一个观点:假如说通用智能就是在本质上做模式补全,那么AGI(人工通用智能)时代已经到来。这仅限于文本领域(视觉领域的挑战更加复杂些)。

当然,真正可泛化的(Generalizable)的智能仍处于起步阶段,甚至还没有开始。这一点,我跟马毅老师的看法相似,我们俩在他香港的家里关于这个问题聊到半夜。

为什么这么说?因为从科学发展的角度来看,本质是在现象中总结、发现和抽象出新的规律,然后将这些规律运用到观察中,甚至用于预测新的现象。

那么,大模型在这方面的表现如何?假设我们让大语言模型去理解牛顿世界里的物体运动,并发现牛顿的定律,有没有可能呢?

显然在现阶段单依靠大模型是做不到的,大语言模型能够学习(或者说记住)很多模式(patterns),并做出足够好的预测,但它没有能力和动机去进行抽象化的思考,特别是像物理学这样的领域,system of physics, 它做不了。

同样,如果让大模型做数学运算,比如加减乘除,它也做不好,甚至连基本的算数都难以做到百分百正确。

这里有一个非常有趣的思考:

假如我们有个时间机器,可以把现在的大语言模型送回500年前的人类社会,会发生什么?

那个时候,现代数学和物理系统还没有建立,然而大模型能解释所有事情,能够做很多当时的人类无法做到的事情,但没有任何动力去发展数学和物理这些基础理论。

推论就是,那我们今天反倒发展不出大语言模型这样的技术了。这是一个非常有意思的悖论。

关于和大语言模型之间的互动,我的个人体会是,作为使用者,我们应当不耻下问。

在任何一个领域,阻碍进步的不是别人,是自己,比如觉得自己已经是什么“专家”了,不愿意问自己很丢脸和“低级”的问题,但实际上,提问是非常重要的,提问之后再进行思考,就能获得更深层次的理解。

我最近在写一些学术文章,会不断地向大语言模型提问,把问题拆解再拆解,在合适的点交给它来处理,然后和它一起讨论,这个合作过程是非常让人受益的。

像文艺复兴时期的科学家一样思考

最后回到主题:AI时代的教育到底应该做什么?

怎么做、做什么我都不知道,不过我想提三个目标。

第一是挑战现在教育的极限。不要不让学生用AI,要放开了让他们用。我们的目标是通过AI,能够显著提升学习效果,实现2到10倍的提升。

假如某个任务因为AI变得简单,那就应该设定更高的挑战,例如要求学生用一半的时间完成更困难的作业,或者提高任务的难度一倍。

因为未来的学生要面对的,是一个与AI共存的职场环境,我们要让学生准备好。假如不让他们使用AI,就是在浪费他们的时间。但是让学生使用AI,就必须设定更高、更具挑战性的目标。

第二点,要学会像文艺复兴时期的科学家那样思考。现在人类的教育流水线,让学生们走过独木桥再走纲丝,得到的都是非常狭隘的专业人才。很多人文学科的学生不知道算法是什么,而程序员们又对历史一无所知。

这种局限性并不是学生的错,也不完全是教育体制的限制,有可能是老师们本身能力的限制,因为老师们自己也是狭窄的专业化人才,包括我自己。

后果是我们经常不知道一个事情为什么发生,一个技术发明以后对社会的影响是什么,我们不关心。但有了AI这个工具,我们可以不耻下问,把自己变成一个广谱的人才。

举个例子,在没有DNA和摄像头的时代如何追捕罪犯?这是几百年前困扰苏格兰警察的问题。

一位法国警察通过人体特征来识别罪犯,胳膊多长、脸怎么样,十几个特点分发给各地警局,这就是最原始的特征工程。

达尔文的表弟 Francis Galdon,开创了臭名昭著的优生学,但发明了用指纹来鉴别个体,大大提高抓坏蛋的艺术,最重要的是他在数据相关性理论方面做了最基础的工作,相关系数的概念就是他建立的。

他和同时代的另一个天才 Karl Pearson合作,奠定了当代统计学的基础。

为什么我会谈这个?学习机器学习的许多基本概念时,很多人不知道它们的起源——它是谁发明的,为什么被发明,何时发明的。我测试过不少同事,几乎没人知道上面这段历史。

在当代教育流水线的塑造下,我们很容易变成一个非常狭隘的专家。但是,你只要有一点点好奇心,利用好大模型,也许你会对广阔的上下文有很好的理解,成为一个通感很强复兴时代科学家那样的广谱人才。

最后一点,没有AI这个工具怎么办?我们的目标是要把AI当作一个良师,但不依赖它。我们要提升自己的核心能力。

换言之,如何使我们的能力在没有AI的情况下,比前AI的时代要强。今天大家开车,没有GPS就不知道怎么开车了,所以从这个角度,GPS是一个非常糟糕的技术。我们要超越这种体验,取消这样的工具依赖。

三个目标是相辅相成:你要挑战极限,成为广谱型的人才、打破走过独木桥再走钢丝这种流水线所造成的的狭隘的专业陷阱,最终目标就是成为有 AI 没有 AI 都更强大的自己。

最后推荐一本书《The Age of Wonder》。这本书讲述了从牛顿到达尔文之间的几十年,被称作英国和欧洲的浪漫科学阶段,书中有很多0到1的例子,比如天文望远镜和化学等领域。

富兰克林有一句名言,“问这东西有什么用,就像问新生儿有什么用一样,”这就是他和友人通信中被问到气球有什么用的回答。

这本书的最后提到了一群诗人——包括雪莱等人——他们对技术进步的情感既充满兴奋,也有恐惧,这种情感和我们现在对 AI 的感觉非常一样,某种意义上历史确实是在重复自己。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新