当前位置: 首页 » 资讯 » 新科技 » 正文

20年蛰伏,低调成就一位大模型领袖

IP属地 北京 编辑:赵静 钛媒体APP 时间:2024-10-16 20:03:40

文 | 第一新声,作者/琳玉

在清华科技园内,国内某知名商业媒体,曾对“智谱AI”CEO张鹏进行了两次专访,值得注意的细节是:去年,张鹏权衡咖啡因的提神效果和剂量,选择只喝一杯;而今年,一个小时的采访中,他接连喝了两杯咖啡……

这一微妙的变化,似乎也暗示着智谱AI正在步入更繁忙、更快节奏的阶段。近期,整天排满行程已经是张鹏的工作常态。

实际上,不仅忙,压力也更大。近日有媒体爆料:大模型“六小虎”里,已有至少两家要放弃大模型!并且,“放弃通用基础大模型的研发,主要做应用。”也成为行业热议的话题。

所有的趋势都指向两个字——生存。

当“技术浪漫”让位“落地求生”,大模型基座迭代速度越来越慢正在成为行业新的转折点,而智谱却在近期对自研的基座大模型进行了更新。作为“技术流”出圈的学院派创业企业,张鹏和团队既不想失了技术底色,又被市场“推”着不得不加速商业化……

张鹏不否认,在大模型商业化方面,行业有些着急了。但现实是:投入这么大,结果和大家的预期有差距,所有人都很焦虑。

如今,互联网大厂、科技大厂纷纷重仓压注大模型,他们和学院派创业企业有着完全不同的商业化模式。在日益变化的市场环境中,如何一步一步地强化技术底座?解决资金困境?优化商业模式?张鹏不得不反复思考这些没有标准答案的问题。

烦扰时,或许他也会怀念自己在清华园上学和科研时光。

01 初遇人工智能

1998年,张鹏参加湖南高考,进入清华大学计算机系。当年计算机系同时入学的还有后来搜狗COO、百川智能联合创始人茹立云等一众AI知名人物。

大模型行业,遍地是天才。

在大模型五虎的几位掌舵人中,王小川、杨植麟分别是70后、90后天才少年,在学校时已经备受瞩目;闫俊杰则从上一代AI四小龙商汤科技出走创业,成功接住两波AI浪潮。相比那些年少成名的故事,张鹏创业前的20年科研经历,显得不那么闪耀。

上世纪90年代末、00年代初,互联网已经行至爆发前夜,但人工智能的发展却还处在理论为主的阶段,尚未形成如今我们所理解的“大模型”概念。

在校期间,张鹏和王小川选择了完全不同的道路。比张鹏大两届的王小川在本科阶段成功设计出当时中国的第四大网站,还没毕业就被张朝阳看中;张鹏则在本硕期间都专注科研,先后发表10余篇顶会文章、设计了国内首个中英文平衡的跨语言知识图谱系统。

刚进清华时,张鹏也惊叹于天才们的锋芒,即使现在提到王小川时,他依然保持着充满敬意的口吻:“师兄当年是系里的风云人物。”如今看来,当时张鹏默默坚持的科研技术道路,也成为了日后大模型牌桌上论资排辈的关键支撑。

1997年,IBM的“深蓝”超级并行计算机战胜国际象棋世界冠军加里·卡斯帕罗夫事件的出现,对人工智能的发展产生了深远的影响,推动了计算机在更多领域的应用和研究,也为行业研究人工智能的应用提供了很大的信心。

在世界人工智能发展氛围渐浓的环境下,张鹏通过在清华大学深度参与实验室课题项目很快找到了自己的研究方向——“文本数据挖掘和语义分析”。这一领域不仅是人工智能研究的核心方向之一,而且在当时被视为前沿且至关重要的研究议题,为后续人工智能技术的突破性进展提供了关键支撑。在此期间,他还结识了多位日后成为商业伙伴的重要人物,包括幂律智能的CEO涂存超和聆心智能的CEO黄民烈,他们均为清华计算机系的同窗。

2002年,张鹏本科毕业,当时国外知名导师的水平高、条件好,很多人工智能方向的毕业生选择出国深造,也不少清华毕业生选择留在谷歌、微软等互联网大厂工作。而张鹏在就业和出国等众多选项下,选择了继续在清华计算机系完成研究生学业。

也许是缘分使然,他人生中最重要的合作伙伴——唐杰,也在2002年进入清华计算机系攻读博士学位,从此,两位人工智能大模型领域的重要人物,在清华成了同门师兄弟。

02 Aminer土壤,孕育大模型萌芽

2006年,唐杰在临近博士毕业时,意识到科技情报大数据挖掘对于加速科技创新、建设世界科技强国具有重要意义。当时谷歌学术、WOS数据库等学术资源发挥了重要作用,而我国却没有完全自主知识产权的科技情报分析与挖掘平台……

后来,依托于清华大学计算机系知识工程实验室(以下简称“Keg”实验室)的大数据挖掘与知识图谱研究,唐杰作为牵头人,带领团队孵化出了AMiner系统。AMiner正是智谱AI的前身,唐杰本人也成为智谱AI的几位创始人之一。

唐杰在办公室

巧合的是,2006年前后也正是张鹏硕士毕业的时间点,在清华连续修完学士和硕士学位后,张鹏直接进入了Keg实验室工作,也顺势成为Aminer项目的一员。此后,Keg实验室十余年间一直是AMiner系统的研究阵地,也是张鹏科研阵地,为后续项目成果转化及商业化提供了重要的支持。

随着内容的丰富度增加,AMiner系统的影响越来越大。当时的研究工作在学术界获得了一定的影响力,发表在2008年KDD上的论文在该会近10年所有论文中(约1600篇)排名前5,这进一步激发了AMiner团队的研究热情。

数据显示,AMiner在2010年左右已经标记了448470个研究者档案以供搜索。并在国家863计划、973计划、国家自然科学基金,以及华为、搜狗、腾讯、阿里等多个合作项目的支持下,取得了长足的进步,应用于科技部、中国工程院等20余家企事业单位。

在1998年至2018年的二十年间,张鹏一直专注于学业与科研,深入研习人工智能及大模型相关的专业课程,依托AMiner在文本数据挖掘和语义分析领域取得量显著的成果。

在此期间,世界人工智能也在应用上实现了跨越式发展:2012年,谷歌深度学习团队开发AlexNet的深度神经网络模型、无监督预训练的语言模型开始出现和发展、GPU架构实现了从早期的固定功能GPU到可编程GPU,再到支持高级着色器模型和并行计算能力的现代GPU的转变。

回忆起在学校和实验室的经历,张鹏最怀念的,除了实验室中的同窗情谊,还有年轻人们沉浸在国际顶尖的科技中,双眼因同样的情怀而闪亮——希望学术成果可以走出实验室,为国家、为社会解决实际的问题。

而张鹏也在很早的阶段就意识到了理论和实际的结合:“人工智能本身是门实践性科学,讲究理论和工程落地结合。”2013年,AMiner平台的商业化应用便提上了日程。

2018年,国家部委发文鼓励科研人员将知识成果转化落地,并提出了指导意见,这为清华大学的科研人员们提供了新的思路,也鼓励他们做出尝试。借此契机,张鹏和创始团队希望AMiner能够在他们手里发挥出更大的潜力。

此时,一个大模型龙头公司正在酝酿,张鹏也将迎来人生中最重要的转折点……

03 掌舵中国最像OpenAI的公司

或许,留在实验室作为一位专注于科研的“谢耳朵”,本是一条光明且安稳的道路。但对于张鹏而言,从研究室迈向商业世界的决定,却无疑是一场更具挑战意义的冒险。

2018年,大模型舞台上的一个里程碑时刻悄然降临——Open AI发布第一代GPT。立即激发了业界的合作热情与交流活力。其他AI公司和研究机构纷纷跟进,推出了自己的预训练语言模型。

在此背景下,Aminer系统的商业化意愿也更加强烈。2019年6月,在清华一众资深教授和Keg实验室的支持下,明星产品AMiner单独拆分,清华大学教授李涓子、唐杰等人,共同成立了新公司——智谱.AI。清华大学计算机系教授、中国科学院院士张钹担任首席顾问,中科院计算所博士、清华数据科学研究院科技大数据研究中心副主任刘德兵担任董事长。

强大的创始团队,奠定了后来智谱AI在行业的地位。当时许多曾经在清华学习过的同学纷纷选择加入智谱AI,有人甚至为此辞掉了国外顶级公司的工作。创立时候的30人团队,在后来顶峰时期甚至超过了700人。

公司成立之初,智谱AI的资源有限,主要还是清华圈子里的政界、投资界、创业界的清华校友。那个时候,有一点可以确认:他们拥有国内最先进的技术。正如张鹏讲到:“核心的技术是求不来也买不来的,当时大家焦虑的是,‘AI四小龙’已经把上一代人工智能技术落地的路径,‘蹚’得差不多,下一代突破口在哪?”

彼时,张鹏的职位是智谱.AI的CTO,还不属于核心创始团队的成员,后来随着公司的发展,张鹏走向前台,成为公司CEO,逐渐转变为掌舵人。

也许冥冥之中自有巧合,2020年OpenAI的GPT-3发布日期和智谱AI成一周年的司庆日刚好同期。司庆日当天,张钹院士作为受邀嘉宾来到智谱AI座谈。张鹏建议,与借此机会深入探讨新发布的GPT-3。受GPT-3的1750亿参数规模启发,智谱AI更加坚定了研发稠密基座模型的决心。

自同年起,智谱AI把OpenAI作为自己的对标对象,开始规划自己的超大规模预训练模型。也许是保留了学者时期的“技术浪漫”和“科研洁癖”,在研究了市面上主流的几种预训练框架后,张鹏和团队还是选择了自研预训练架构。

“主流的几种预训练框架,BERT、GPT和T5,都来自国外公司。不同的训练框架,在不同维度上擅长的能力不同,各自有适合的任务和场景。把它们各自的优点结合起来,泛化出更多能力,是自研GLM预训练架构的出发点。”张鹏解释说。

2021年,智谱AI团队开始训练千亿参数模型GLM-130B。国内当时少有企业涉及这项业务,国外的可借鉴资源又不足,能不能做成,张鹏也没有底。但可喜的是,“在许多具有百万参数甚至更少训练步骤的基准测试中,GLM在自然语言理解方面,实现了比BERT和T5更好的性能。这给了我们信心。”张鹏说到。

后来,智谱AI使用了一些其他模型架构,成功训练出了一个万亿参数模型。慢慢的也让智谱成为“中国最像OpenAI的公司。”

04 融资超50亿,破解“资金难题”

模型问题解决后,智谱又遇到另一个非常棘手的问题——资金。

对于创业公司而言,模型训练工程层面上涉及到的资源、团队、训练数据等每一项都需要非常大的投入。巨大的成本消耗之下,数据不足、算力不够与模型实用有效性之间,陷入权衡困境。

当时,已有AI公司寻求与《卫报》等新闻集团等媒体合作,用其授权文章训练模型,年合作费甚至可达数千万美元。也有公司用现成的大模型生成内容再训练,但效果不一。要想把模型做出来,成本巨大,张鹏和团队在当时下了很大的决心。

2020至2022年阶段,资本市场对大模型并未展现出显著的兴趣,后来的“大模型五虎”也都是在2022年之后才获得巨额融资。智谱同样如此,在拥有主导金钱流向的能力之前,公司与资本的关系曾一度紧张,这也让张鹏感到非常焦虑。

公司发展初期,曾获得中科创新的早期投资。然而,在大模型兴起之前,但在大模型爆火前,中科创星退出了持有的25%股份,这对本就资金拮据的智谱AI来说无疑是一记重创。中科创新此举除了因基金到期外,更深层的原因是机构高层对智谱AI乃至整个AI市场前景持悲观态度。彼时,中科创星甚至从2021年起就撤掉了AI投资组,双方因此产生了嫌隙。

回忆起资金困难的时候,张鹏笑谈到:“当初一个有趣场景是,公司一只眼看着训练的数据量输入越来越少,另一只眼看着银行账户上的储备现金输出越来越多。”

好在很快,便迎来了转机。

在大的转折面前,很难说是英雄造实势,还是实势造英雄。当时智谱AI为匹配“千亿规模模型”算力需求,多次寻找谈判无果,最终碰巧发现一家国内云服务供应商闲置了一批2020年采购的GPU芯片。这批低价算力恰好满足智谱AI的急需,后续公司又结合模型压缩、量化、加速等技术,成功降低了大概90%的成本,顺利度过难关。

所谓好事成双。不久后,2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行全方位评测。智谱AI的GLM-130B成为2022年亚洲唯一入选斯坦福评测的全球主流大模型。

至此,智谱AI被推向了行业最前端,智谱AI的名字,出现在百度、字节、360、有道等企业的合作名单中。

紧接着,2023年初,ChatGPT火爆之后,投资圈也敏锐地捕捉到了大模型讯号。之前融资时,张鹏团队和投资人聊,需要把大模型的方方面面解释得非常清楚,才会有一些机构感兴趣。“但(那年)过完春节,大家对大模型的态度,跟之前比有180度的大掉头。”张鹏说到,热度最高的时候,每天要接待三波投资人,还有不少前来学习的大模型团队。

2023年,智谱AI成功融资超过25亿人民币,仅用一两年的时间便成功扭转了资金困境的局面。回过头去看,张鹏一直在总结,他认为智谱AI被投资人认可主要有三点原因:一是大模型认知深刻,拥有核心技术,二是团队长期合作,技术产品转化快;三是团队商业化在当时相对成熟。

张鹏曾谈及在科研圈和创业圈的最大区别就是“算账”,在学校做科研的时候,更多的是凭兴趣、意义、价值、创新性来考虑问题,很少去看钱。但到了公司后,学会了精打细算,所有成本的投入转化成收益的账也要算清楚。

到2024年,智谱已经累计融资50亿+,估值超过200亿。资金不再是张鹏的焦虑点,真正的挑战在于如何在这场没有终点的马拉松中,持续领跑。在他的心中,还有无数本待解的“账”,每一笔都书写着对未来的深思熟虑……

05 站高望远,为行业造梦

随着行业的火爆,随之而来的必然是入局者的增多与竞争的加剧。在国内,尤其在资本涌入和互联网大厂、科技大厂加入后,大模型发展速度和行业格局都发生了非常明显的改变。

张鹏发现在2023年初的时候,行业对大模型的应用都几乎没有预期,到这一两年,预期变得超级高,特别是关于Super APP的讨论。“很多纪录都是在这两三年被打破了——最快达到1亿用户的APP,(ChatGPT)单体应用日活已经快赶上Google了,我觉得这个很恐怖。”

但更恐怖的是,在所有大模型企业都尚未盈利时,行业又打起了价格战。今年五月份的一场大模型价格战几乎让所有主流大模型企业无一幸免。阿里、字节、百度、腾讯、科大讯飞相继官宣大幅降价,大模型价格一夜之间下降了90%左右。

这场价格战对创业公司非常不友好。

创业公司和大厂的容亏率存在天然的差异,也是因此,当时几乎所有的创业公司都不愿意参与其中。锋芒毕露的王小川甚至用“吃瓜看热闹”的心态对待这轮价格战。但实际上,后来智谱、月之暗面、mini Max都有不同程度的降价。甚至开始态度最坚定的王小川后来也发生了转变。

这场价格战到现在仍在持续,单纯降价如何实现长足的发展?行业开始进行商业模式的创新思考。

2023是“大模型爆发元年”,2024是“大模型应用爆发元年”行业如此总结。正如本文开头所言,大模型公司正逐渐将重心转向应用开发,相应地减少了对基础大模型的投入。商业化提速、再提速成为行业底色,几乎所有的企业都在被“推”着往前跑。

2023年,智谱的合同销售额上亿,成为行业天花板。但在今年,智谱在订单获取方面同样遭遇了挑战。张鹏和团队意识到,纯粹的技术研发和传统的商业化模式已经难以让创业公司实现可持续发展发展。2024年,在张鹏的带领下,智谱AI进行了多次调整策略、团队扩张,实施融资优化和商业化提速后,最终,“构建大模型生态”成为智谱在2024年的重要主题。

张鹏认为,仅仅只有强大基座模型是不够的,只有打通大模型产业生态圈上下游,与客户、不同生态位的合作伙伴一道,才能推动中国人工智能产业全面发展。

以构建大模型生态为更长远的商业化目标,智谱在2024年主要开启了两个重要项目:“开源开放的大模型开源基金”和“Z计划”。

“开源开放的大模型开源基金”包括三个“1000”:为大模型开源社区提供1000张计算卡助力开源开发;提供1000万元现金用支持开源项目;为优秀开源开发者提供1000亿免费API tokens。

“Z计划”则面对全球大模型创业者,联合生态伙伴发起总额10亿元的大模型创业基金用于支持原始创新,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等方向。目前共链接1200+大模型赛道初创企业/开发者团队,前后累计投资与孵化有50+家。

8月4日,张鹏亲自参加了“Z计划”企业的路演日。当天,25家Z计划企业逐一进行了五分钟的路演,一时间,“拿融资的标的项目”和“众多AI项目的金主”两种截然不同的身份同时存在于一家初创企业身上。台下张鹏的角色也悄然发生了变化,从昔日的“被选择者”转变为了今日的“选择方”。这种独特的现象,在当前国内创投界除了智谱AI也是绝无仅有。

“智谱做好L0的层面,赋能伙伴和客户做好L1和L2。而中国的人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区和学术界的共同努力。”张鹏为大模型行业编织了一个美好的梦。

谁愿携手入梦,国产大模型能否缔造一个美丽新世界,我们拭目以待。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新