作者 | 常棣
编辑 | 葛覃
美国著名小说家作家威廉•吉布森曾经说过,“未来已来,只是分布的还不太均匀”。用来给当下的时代作序,再合适不过。
AI 如汹涌的浪潮席卷着整个世界,在这股热潮背后,算力产业正悄然经历着一场深刻的变革,对于算力产业的共识大家均已知晓,算力就是新时代的生产力,而算力产业非共识的部分,只有一小部分人率先看到了方向。
近日对话了阿里云智能科技研究中心主任安琳,探究行业背后的变迁。安琳表示,算力需求是确定性的增长机会,但是只盲目关注GPU的机会,那真是大错特错,如何在大规模算力基础设施的前提提高效率,直接决定价格和竞争力。
他还提到,大规模计算网络、AI任务调度、智能运维三大能力,构建起算力服务非常高的技术门槛。“从我们这边了解到的情况,中国具备这个能力的公司不超过两三家,阿里云是其中一家。”
更值得关注的是,安琳指出,AI和云不是两回事,而是一回事。“大规模训练模型,可以认为是对整个计算机科学的一次革命。因为它会对于芯片、云计算、服务器提出新要求,从底下最硬的那一层,到上面最软的这一层,全都会提出新的要求。而且模型和基础设施不是两件事,那些搞模型训练的人碰到很多问题,本质上是因为基础设施没有支撑好。”
“因此,AI竞争的终局是能够在全栈体系里面做端到端的系统级优化,要不然其他都是同质化,一定是全栈全链路跑通系统级优化,构建起独特的技术优势,这种技术价值才能赢到最后。”他说。
以下为对话实录,经编辑:
:伴随大模型热潮兴起,算力产业有哪些共识和非共识?
安琳:我们有一些基本的判断。第一,算力一直都很重要,而且可以预见,未来算力需求增长的速度很快。
在全球范围内,云计算公司由于AI的带动,包括阿里云在内的营收都已经有了明显的增速上的恢复。阿里云重回两位数增长,至少一半由AI带动。前期大家都觉得算力很重要,值得做一些预先的投入并且迎接即将到来的爆发的市场,直到今天我们觉得依然是没问题的。阿里云还在稳步推进对算力的建设和投入,也是因为对市场抱有信心。
第二个点,可能跟一些人的认知不一样。大家都知道算力在分类上分为智能算力、通用算力、超算算力等。但是在实际上中,通用算力和智能算力还是不能完全独立的建设,而是要混合布局建设。
一个最简单的道理,企业客户在使用AI应用时,并不是只用AI。当一个AI功能封装成智能体或者类SaaS的服务给到用户,AI可能是核心功能,但是为了让它可用,得调用数据库、安全能力等一堆七七八八的应用,AI的消耗在其中也就占个三成,剩下的六七成就都是原来云服务的那一套技术服务。
也就是说,在应用的角度,实际上还是大量用到智算和通算的混布算力,我们自己推进数据中心的建设时,特别注意在一个空间位置里面考虑GPU算力和CPU算力能够被融合调度。这是我说的第二个点,算力不应该分的那么细,实际应用中是一种混合的状态。
延伸一下,大家一定要区分大模型的训练和推理,真的是不一样。以前说大模型强依赖于GPU,实际上是特指大模型的训练,CPU在里边发挥的作用非常小。但是训练代替不了推理,包括现在千行百业在应用AI的时候,训练微调和推理都很重要,未来暴涨的是算力混布的需求,这是我们对市场趋势的判断。
第三个点,在算力里面大家比拼的是什么呢?核心是效率。
甭管是自研还是采购GPU卡、CPU卡,包括数据中心的改造,这都是固定资产的投入,把它运营起来变成钱,说白了还是固定资产的运营效率,直接决定了你在市场上提供服务的价格。
我们先不谈算力卡本身,要么是用N卡的算力,要么就是国产卡。一般来说规模大,效率可优化的空间就更多。所以现在市场非常明确,大家要建就建大规模,万卡现在都不足以为奇了,甚至建10万卡,国际层面也是这样。
这有一个好处,大规模数据中心可以建在那种电力、资源、制冷等条件都比较好的地方。因为这里面相当一大部分是能源约束,再一个就是这里面有技术门槛,我们放到后面说。
总结一下,第一需求很大,而且我们看到了确定性的增长的机会;第二还是得混布,要说这里面都是GPU的机会,那真是大错特错;第三,这件事拼的就是效率,再延展一下就是规模,效率是在大规模前提下的效率。
:做大模型的训练算力集群,难在哪?
安琳:我们先看一个例子,就是某运营商官宣了做万卡集群,后面也提到出了已经建成的,短期内不会再做新的,理由就是他认识算力这个事情极其复杂。
关于难做的第一个原因,需要很强的技术基础,叫做智算网络通信,这个技术不是说已经有了,而是大家边研发边用。
通信并不新鲜,但是智算网络通信从来没人研究过,它的需求极其苛刻,几百G的带宽,在一个毫秒内正向带宽全占满,下一个毫秒又反向全占满回来。在人类历史上的通信没碰到过这种需求,所以你就可以理解为什么没有这种技术。
首先涉及到通信网络设计,网络拓扑是一层能搞定,还是两层能搞定,还是三层能搞定,阿里云能够做到的水平,就是三层搞定10万卡,两层搞定万卡,这是很难的。网络拓扑需要做大量优化,网卡的芯片硬件,还有软件的设计,路径选择的算法,防拥塞的算法,通信协议的加速,一整套的软硬件的技术。只有这些技术同时取得突破,才有可能解决人类历史上的这个难题。
从技术路线上,谷歌有一套技术路线,英伟达有一套技术路线,然后就是以太网的RoCE这套技术路线,这场国际竞赛,这几家厂商都还在搞,现在说谁胜谁败都是为时尚早。现在阿里云这么大的投入,处于一个相对领先也得持续地投入。
网络技术很大程度上决定了集群能建多大,规模建得小一点,网络就简单一些,但是小一点的集群效率和规模就没竞争力。
第二个决定效率的因素就是云计算多年沉淀下来的调度,传统调度的思路包括算法的设计,都是按照硬件资源做调度,先监测这个卡是否空闲,如果空闲就扔一个任务,这是最简单的调度,效率也是极低的。云计算做了这么多年,阿里云早已经进化到按任务来调度,调度的颗粒度更细了,通过监测到每一张卡上每一个任务的进程,然后根据任务进程分配新的任务,这种需要很多的工程技术能力积累,这也是为什么现在全世界做得好AI的公司,基本上都属于云计算公司。
第三个决定效率的关键是运维,运维就是故障率,以前的卡坏了,可以很快把它隔离出去,然后继续做。现在我们发现,大模型任务可能出现毫秒级的抖动,一抖动就得重算。别小看这个瞬时抖动,一次通信过程中的抖动和丢包,整个GPU利用率就会下降50%。
阿里云做这么多年的云计算,对运维监测的要求一般都是分钟监测,但是现在做智算网络,我们必须把运维升级到毫秒级检测。你看Llama的那报告,它在整个的训练过程中故障率非常高,好几百次的故障都是这么来的。
这三件事加起来,第一个是计算网络的能力。第二是任务调度的能力,第三是智能运维的能力,构建起了今天谁能干智算集群,提供大规模有竞争力的算力服务的非常高的技术门槛。
从我们这边了解到的情况,中国具备这个能力的公司不超过两三家,阿里云是其中一家。
:智算中心空置引起了各方关注,阿里云怎么看?
安琳:确实,我们也有所耳闻,前期各地已经建设了一批几千张卡或其他规模的智算中心,不管是国产卡是还是国外卡,这些集群都不同程度上存在闲置的问题,已经引起了关注。
主要是有两个原因,一方面是国产算力集群面临比较大的挑战,因为它的生态问题。这个挑战短时间内很难解决。所谓生态问题,简单说就是那套英伟达CUDA那套体系,可以认为是我们在编程时都会调用一些现成的函数库,CUDA那套体系非常完善,它不是一时半会做成的,也不是英伟达一家公司做成的,英伟达和全世界那么多家公司一块越做越强。今天咱们国家这么多的大模型,基本上都是要基于CUDA来写的,因为它已经变成了AI领域的事实标准。
如果我们不基于它来写,会带来什么问题呢?它不是一次性重写的工作量,而是每一次模型在迭代更新和二次开发的时候,相当于就没有函数库了,每一个功能都要从头开始写,这个效率就不可能跟得上美国,这就是为什么还没有办法迁移到国产芯片的根本原因。
英伟达黄仁勋公开讲,就算他的竞对的卡是免费提供的,他依然有信心这些客户还是要买英伟达的卡。另外业也有消息,英伟达卡的成本大约1000多美元,现在官方卖价(不考虑禁运和水货增值)卖价也是几万美元,他能维系这么高的利润率,开发生态也是关键。不是其他公司不建,这些公司都在卯着劲要建,但是需要时间,咱们国家也应该有耐心,要对这个事有正确的认识,这不是集中力量再搞个一两年就能搞出来的。
我们看到比较现实的做法就是,要给国产生态发展留一些时间,而且在这个过程中还是要走跟国外兼容的路线。
第二个原因,一些国外的卡为什么也用不起来呢?就是我前面说的,要么规模太小了,要么就是建得太分散,特别是东部地区。一般东部地区的企业资金条件好一些,可是东部地区的电价真是没有任何空间,和西部相比有巨大的价差,他怎么可能在市场上卖出去。
我们已经看到了很多包括运营商和民营企业,在寻求跟云计算公司的合作。他们没有能力形成服务,然后现在等着租给这些云计算公司,这是个普遍现象,从正面来讲,这也是避免浪费的方式。
:算力产业分层来看,芯片、云计算、服务器、数据中心等,不同的阶段可能会有不同的力量左右算力市场,下一个阶段谁更能主导算力市场?
安琳:基于我们一个最根本的判断,就是AI和云不是两回事,而是一回事。从技术的角度看这个问题,你会看得特别的清楚。
AI这一次的技术革命,是以大模型为代表,全称叫大规模预训练模型,可以认为这是对整个计算机科学的一次革命。因为它会对于芯片、云计算、服务器提出新要求,从底下最硬的那一层,到上面最软的这一层,全都会提出新的要求。而且模型和基础设施不是两件事,那些搞模型训练的人碰到很多问题,本质上是因为基础设施没有支撑好。
AI和云的结合,会重新定义AI,也重新定义从芯片到服务器等所有软硬件,全球领先的公司都在干同一件事,就是在追求端到端的全链路的协同优化。做模型的公司希望能和云计算公司走到一起,把自己对于模型最前瞻的理解和下一步演进的态势和云计算公司做沟通,希望云计算公司对他的模型做优化,而且云计算公司又会进一步再向下传递,与芯片公司做沟通。
整个体系革新是互为牵引的,别说算力市场,AI竞争的终局是能够在全栈体系里面做端到端的系统级优化,这样才有护城河,要不然都是同质化,他一定是全栈全链路跑通系统级优化,构建起独特的技术优势,这种技术价值才能赢到最后。
从全世界范围来看,所有头部公司都是在寻求全栈的优化。微软本身做云,通过投资一系列手段试图把一些大模型公司深度绑定,同时也发布了自己的芯片;谷歌自己又做模型又做云也做芯片,AWS也是,英伟达也投资控股了一家云计算服务公司,并且英伟达自己也开始做模型。阿里云也是一样的在做全栈AI能力优化。
现在看算力的市场,成本和易用性是最关键的要素,叠加模型的应用。云计算的能力决定大模型的天花板,大模型的质量决定应用的天花板,大模型的交付成本决定应用创新的加速度。