文 | 第一新声,作者/琳玉
前脚台积电遭施压,后脚对华半导体出口又遇“紧箍咒”。
近期,国际芯片局势再收紧,12月3日,中国半导体行业协会等四大协会发布声明,呼吁或建议国内企业审慎选择采购美国芯片。
随着AI浪潮和数字经济的高速发展,作为关键基础设施,AI芯片及相关算力产业已经成为全球数字化、智能化转型的金钥匙。算盘一打,更让人眼前一亮:据中国信通院测算,每投入1元算力,就能拉动3-4元的GDP增长,经济引擎效应不言而喻。
在此背景下,国内人工智能行业虽屡屡受挫,却也借此东风加速踏上了自主化征途。近年来,我国算力水平实现了高速发展,当前总规模已达246 EFLOPS,跻身全球前列。预计到2025年,算力核心产业规模将膨胀至4.4万亿,联动产业规模更将突破24万亿大关。
眼下,国内大范围的“算力荒”局面显著改观,但国产算力中心在蓬勃兴起之时,亦步入了新的挑战期:供需不匹配、算力闲置、利用率低等难题正慢慢浮出水面……
随之,市场对“算力运营”的也需求开始跃升。
IDC数据显示,2023年“中国智算服务市场”规模已近200亿,且未来五年,将保持18.9%的年复合增长率,2027年有望触及3075亿规模。
全球市场不确定性加剧,国产芯片商业化落地需求愈发迫切。当前,算力运营”已经成为潜在的千亿蓝海市场,且已有不少前瞻企业正在积极探索算力的规划与运营,推动国内芯片核心产业实现高质量的自主可控发展。如何激活闲置算力,使国产算力物尽其用?又如何以算力为依托,进一步盘活人工智能市场?
针对这些问题,本期第一新声采访并引用了无锡数据集团战略发展部兼无锡市数字新基建公司负责人孙荣锋、原IDC 圈分析师金磊、英诺天使基金合伙人王晟、第一新声创始人兼CEO姚毅、北电数智战略与市场负责人杨震、北电数智产业生态部负责人吴岳、中国信通院云计算与大数据研究所总工程师郭亮、蚂蚁数科AI科技技术负责人李哲等行业大咖的最新观点,共同探讨算力新时代下的“新机会”和“新解法”。
01 算力喊“闲”?
算力“建设”热潮下,“消纳”寒意渐显。
大模型爆发带动了算力的井喷式增长,这股热潮下,地方政府、运营商、互联网大厂纷纷按下加速键,大规模兴建智算中心,试图加入这场算力的盛宴。数据显示,2023年全国的智算中心数量还在30个左右,而截至今年上半年,国内建成和正在建设的智算中心已经超过250个。
图片观研天下
当算力洪流汹涌而至,算力市场出现了哪些新变化?从智算中心、大模型企业等供需两端的动态中,我们可以直观地感知到。
首先,智算中心已经拉响了“算力闲置”的警报。
在密集的智算中心建设热潮下,市场端愕然发现:这些新增的算力似乎并未如预期那般,在推动实际应用落地、助力地方产业升级等方面大放异彩。“现在全国90%的智算中心算力规模低于1000P,对大模型训练作用有限,未来使用效率存疑。”中国信通院云计算与大数据研究所总工程师郭亮对庞大的智算中心建设数量表示担忧。
自2024年下半年以来,算力中心的机架空置问题开始凸显;过去一年间,北京一家算力运营商在与众多建设智算中心的政府及企业客户进行了深入交流后,明显感受到“市场对算力消纳的需求越来越迫切”。
某大型智算中心相关负责人向第一新声谈到:“从2024年开始,采购和租用算力设备的企业明显减少;到了现阶段,甚至单纯的拼低价,都已经难以有效消纳市场上的存量算力……”
眼下,多数智算中心仍主要寄希望于手握大模型训练的“算力消耗大户”,但现实困境是:大客户资源越来越稀缺,而智算中心又无法给出更精细化的策略、更具吸引力的价格来服务中小型客户。由此,算力消纳陷入僵局。
“B端需求方倾向于选择熟悉的合作伙伴,成功交易往往还是局限于良好的合作关系之间,或具备较强综合实力的供应商。”上海润六尺科技有限公司总经理张亚洲说到。算力大客户早被锁定,难以撬动,这也进一步考验了新建智算中心寻找客户的能力。
其次,当前大模型训练需求显著下滑,而推理需求的增长是一个循序渐进的过程,整体而言,算力采购市场也正经历明显的冷却期。
狂飙两年后,大模型的发展开始从狂热回归到冷静。国外方面,OpenAI、Anthropic相继推迟了最新模型的计划发布时间;国内大模型公司则开始出现“做减法”的趋势。
一方面,GPT5的发布一再推迟,市场技术引领缺失,导致整个行业大模型的开发和训练活跃程度徘徊在低位。加之高昂的训练成本与持续的开源风险,业界普遍将目光投向下一代大模型的诞生,以期新的技术框架重新激活市场活力。
网信办数据显示,截至2024年10月,已有188个大模型通过生成式AI备案,但其中超三成的大模型在备案后并未进一步公开进展,只有约10%的大模型在加速训练。
另一方面,当前业内开始形成的共识是:“大模型并非参数越多越好”,原IDC圈分析师金磊分析到:“一些大模型厂商在基础模型达到百亿参数量后,便转向了行业应用的发展,不再盲目追求模型千亿、万亿参数规模的排名。”
而在应用方面,大模型企业在经历了商业化征途上的广泛试水后,也开始回归到各自更擅长的领域,打法上更加聚焦。例如,今年9月,月之暗面决定停止两款出海产品Ohai和Noise的尝试,专注Kimi的开发。百川智能创始人王小川则表示将全面投入AI医疗。
“大模型企业采取聚焦行业、精简规模等措施,本质原因还是期望通过成本的控制来实现真正的商业化落地。当前国内大模型赛道的烧钱战已经告一段落,为避免高昂的后期使用成本,‘做减法’成为多方选择。”第一新声创始人兼CEO姚毅说到。
同时,当前资方对部分市场大模型的投资转为理性。此番风向转变预示着,在基础大模型风潮过后、推理需求尚未形成较大规模之前,算力市场将短期承压。
此外,当前大模型的发展也正面临着安全可信的高质量数据短缺问题。“未来的AI应用需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气与极端路况数据、具身智能训练所需要的复杂场景数据等。”蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲说到。
近年来,伴随着大模型技术的发展,机器学习正从“以模型为中心”转向“以数据为中心”,高质量数据可以更好地提升模型的准确性和稳定性,但到当前阶段,数据短缺已经成为制约模型发展的关键。据Gartner预计,2024年,60%的AI数据将是合成数据;Epoch AI Research研究团队更是大胆预测“到 2026 年,现存的用于AI模型训练的高质量语言数据将耗尽。”
“垂类模型深耕细分行业,精准掌握特定领域的知识模式,其高度专业化让任务执行更精准、更高效。但目前缺少安全可信、高质量的数据支撑,很难在实际应用中大规模的开展起来。”一位行业人士对第一新声坦言。
算力需求走低,牵引着其上下游产业也步入降价通道。“曾经一卡难求的算力GPU也出现了明显的降价趋势。具体而言,热门芯片英伟达H100的八卡整机价格,已经从去年的360万巅峰下降到230万。这也说明,当前阶段市场算力是足够的,主要是需求在下滑。”英诺天使基金合伙人王晟说到。
02 “买”、“卖”两难,市场深陷“低效利用”迷局
“智算中心的利用率普遍徘徊在低位,而众多中小企业却仍然难以负担高昂的算力成本。”是算力市场在新环境下面临的尴尬局面。
IDC今年的调研数据显示,以企业为主要用户的算力中心,其利用率普遍徘徊在10%-15%的低位。而根据推算,想要带来显著的经济效益,算力中心的理想利用率目标至少为80%。当大量算力资源陷入“沉睡危机”时,算力需求方却难以在市场上找到合适的算力。“即使今年以来算力价格有所下滑,但对于众多中小企业而言,仍然是很贵的。”北电数智战略与市场负责人杨震说到,供需双方间似乎存在一层无形的壁垒,难以跨越。
“算力闲置的重要原因是一方‘买不起’、一方‘卖不掉’”金磊剖析道,而这一困境背后又有多重因素交织:其一,进口芯片难以买到,国产芯片性能存在代差导致市场使用积极性欠佳;其二,众多智算中心采用的单卡集群模式,难以支撑当地产业多元化场景需求;其三,传统的租赁、包销模式束缚智算中心,难以拓展多元客户群。
进口芯片使用受限的情况下,国产芯片性能参差不齐,缺乏实际使用场景的集群数据,导致市场难以做出采购选择,是算力难以高效利用的重要原因。
当前国外芯片“限供”问题造成的市场缺口,需要国产芯片来填补。加之政策层面的积极鼓励,国产算力在整体算力中的占比持续攀升。然而,据张亚洲观察,当前国产算力市场的参与者众多,电脑设备厂商、ICT通讯厂商纷纷‘卷’进来,但真正做成、做好的不多。正如中国工程院院士刘韵洁在2024年中国算力大会上所指出的问题:“国产算力已具备一定规模,但利用率不算十分理想。”
“目前,国产GPU/AI算力芯片公司的落地难度非常高,国产芯片想进智算中心,必须帮智算中心找到最终买单此芯片和设备的客户公司。从芯片公司、智算中心、模型公司,再到最终的业务客户,整个链条紧密耦合。”北电数智产业生态部负责人吴岳进一步分析到。
同时,单卡集群应用场景少,尤其是对丰富的AI场景支撑性不足,加剧了算力利用率低的问题。杨震作比喻说到:“单卡集群像是单打独斗的士兵,而非协同作战的精锐部队。全能芯片英伟达的单卡集群,就像一位十项全能的运动员,但你的任务可能只需要他的一两项技能,剩下的就是昂贵的资源浪费。反观国产芯片的单卡集群,芯片之间各有专长与短板,但使用起来要规避短板也较为繁琐。”
此外,当前算力供给三大模式的局限性,又进一步导致市场供需难以精准匹配。
目前市场上主流的算力供应模式有三种:一是政府、央国企投建的算力中心,用于招商引资或产业引导;二是大模型公司自有的算力中心,以自身需求为主,富余算力则通过云服务租赁给市场其他需求方;三是运营商建设的公共算力中心,通过汇总市场上的闲置算力,根据客户需求匹配算力。
“这三种模式的共同特点是:它们的核心销售方式大部分为“独占式”的租赁、包销模式,不论是以卡、匹、时或台为单位计费,都意味着,在非全天候使用的情况下,即使并未实际使用,费用仍在持续产生。独占模式往往导致资源利用不足、冗余及浪费现象频发。”姚毅认为,这种模式适合大参数量的模型训练,但不适用于公共算力服务。
“算力需求还是很大,只是现有供给类型无法满足用户需求。无论是适配方面还是性价比角度,都达不到客户的预期。”IDC中国分析师杜昀龙总结到。在当前AI企业深受算力成本高昂之困、中小开发者与创业公司在算力租赁上尤感压力的背景下,提高算力利用率,让中小企业与个人开发者能够更方便地使用算力、以更低的成本实现开发和应用,对产业的发展至关重要。
03 打通“算力、算法、数据”孤岛,是破题点
眼下,算力基础设施虽然已经不断被补齐,但这些算力资源就像一根根林立的“烟囱”,孤立而建,彼此之间缺乏联通与协作的桥梁,因此难以被产业上下游有效利用,资源浪费严重。
近日,在百度智能云技术论坛上,“大模型训练中算力有效利用率不足50%。”的话题受到广泛关注,致使“如何提高算力的有效利用率”再次引发行业探讨。
当前,算力市场的“烟囱困境”,受制于AI产业上下游、国家环境等多维度因素。“要解决算力烟囱问题,本质上来说,还是要落到产业层面。”杨震讲到。人工智能三要素:算力、算法、数据之间环环相扣、互为支撑,破解之道在于三管齐下、打破供需隔阂,为行业提供能够疏通算力流通梗阻、促进资源精准对接的创新型算力消纳方案。
算力方面,针对国产芯片性能瓶颈及单卡集群的局限性问题,业界提出了“混元异构集群”的解决方案。
目前,国产芯片与国外芯片之间存在代差,使用单一品牌芯片集群存在固定的、无法解决的弱项。“通过混合强弱芯片形成混元集群,再采用算法适配使整体接近高性能芯片,就能够打破单一集群限制,实现高效协同。”金磊表示。
然而,构建高效能的多卡集群需要解决技术复杂性、资源分散、生态支持等一系列问题,尽管市场上众多厂商标榜具备多集群管理能力,但行之有效的并不多。“真正实现跨多集群协同的厂商极少,许多异构计算仅限于两个集群间。”杨震表示,北电数智针对性推出的算力管理平台“前进·AI异构计算平台”,致力于实现多集群合作,当前已搭建包含三个国产混元集群,达产后将形成2000PFLOPS的智能算力供给。
“打破算力延迟,让不同算力集群能够实现高效协同作战,是下一阶段必然的发展趋势。”吴岳说到,其中涉及到很多细碎的功夫是必须要去做的,包括算子库的补齐、通信库的补齐等等。只有把每个细节都做好,才能让芯片无差别地支撑各种不同的底座大模型。
同时,相对算力供给包销、租赁模式的局限性,按token定价的模式则大幅降低了算力的使用成本。“算力中心的运营目标应该是为企业提供像水电一样的基础算力设施,用户使用了算力或模型服务才开始计费,即插即用。”吴岳分析到,当前按token计费的模式,主要是帮助中小企业解决普遍存在的算力应用难题,在面对像医院这一类传统客户的垂类模型训练时,成本甚至可以降到原来的1/10左右。
算法方面,在构建好的芯片混元集群基础上,运用专业算法实现芯片的异构调度,能够保证跨集群训练的稳定性,可以解决算力和模型之间的连接问题。
目前,各模型配有相应的上下游生态系统、适配芯片及开发框架,这就导致了一定程度的封闭性。企业因此面临生态体系差异大、模型难迁移至其他算力芯片等状况。若要实现迁移,既关乎性能差异,也涉及高昂的成本,可能遭遇模型不兼容、调试困难等问题,试错成本太大,这也是许多客户对国产算力望而却步的原因之一。
北电数智的核心产品“宝塔·模型适配平台”通过算法搭建类似操作系统的适配层,为不同硬件提供统一接口,确保与英伟达等主流产品的兼容性。“向下适配不同芯片,向上适配不同开发框架,这种普适地解决方案本质上是把芯片、模型和开发框架几个层面完全打通。在这个平台下,任何一类芯片、模型都可以不受阻碍地部署、开发。客户不用考虑底层的硬件细节,始终面对一致的接口,从本质上解决市场上存在的算力利用率低的问题。”杨震说到。
这种混池策略,将多种算力实现混合调配,对模型的训练与推理任务都能够带来大幅的效率提升。“在训练任务中,混池技术能够解决不同算力之间的迁移问题和协同使用问题。在推理任务中,混池技术可以根据算力需求调整使用方式,例如用高性能卡处理模型的首token,低性能卡处理后续内容,以此在节省算力的同时,保证推理的速度大幅领先。”金磊说到。
根据测算数据,在现有的智算中心上,布局“前进”和“宝塔”后,能够实现运营效率至少翻倍,针对纯推理需求,效率提升甚至可达300%以上。“同时,我们通过软件加速优化提升国产芯片性能并延长其寿命。若模型不支持用户框架,还可以帮助嫁接开源模型库,让用户以‘0代码’或‘低代码’的方式快速开发应用,类似于搭建了一个任何人都可以轻松使用的AI工厂。”杨震说到。
数据方面,当前,数据采集、高效利用以及数据可信等难题凸显,成为阻碍大模型进一步发展的重要瓶颈。因此,破解数据难题,是提升模型训练质量,从而进一步提升算力利用率的前提。
近期,中国信息通信研究院院长余晓晖在数博会上着重强调了建立“数据空间” 发挥数据要素的重要性。在当前的数据难题中,流通问题是关键。报告显示,国内约70%的高质量数据掌握在政企手中。而这些数据的有效利用面临多重挑战:首先,出于对数据安全、信创合规性等方面存在较深顾虑,部分数据难以对外提供;再者,缺乏有效机制及平台以保障数据的安全和价值利益。这些因素共同导致市场上的交易量极为有限。
当流通难题传导至中小模型厂商、开发者团队等数据需求方,就形成了模型难以找到合适的训练场景、新兴技术难以落地赋能的困境。因此,构建一个保障数据安全、合法、可信交换的数字化基础设施——“可信数据空间”已经迫在眉睫。
“现阶段在无锡市的数据交易中,能够为人工智能提供服务的并不多。”无锡数据集团战略发展部兼无锡市数字新基建公司负责人孙荣锋分享了无锡市当前的数据交易情况:目前无锡的数据交易为人工智能产业提供服务仍处于探索阶段。作为工业大市,无锡在制造业AI大模型的数据提供方面,受数据确权和数据前期治理、清洗、定标等复杂准备工作的影响,企业的参与度不高。
为了深度挖掘本地数据潜能、赋能地方产业升级,无锡大数据集团承担起当地千行百业的公共数据资源“开发”和“运营”责任。积极构建数据交易生态圈,促进数据要素市场化流通,搭建了无锡市公共数据交易平台——锡数交。“目前我们主动和上海数据交易所、深证数据交易所等一线城市的数据交易平台合作,并服务第三方机构开展无锡公共数据加工和数据产品的开发,助力数据资源融入全省、全国的数据交易市场。”孙荣锋讲到。
以往,场外数据交易平台或数交所多采用API接口直供或线下审批使用等模式来经营未经必要安全处理的裸数据,安全合规存在较大漏洞,且耗时费力,同时数据价值也不能充分被挖掘。北电数智打造的红湖·可信数据空间针对交易壁垒,重点保证数据安全、确保双方利益,为供需双方提供多层次解决方案和长期可持续的模式,并形成完整的商业闭环。
“以具身智能应用为例,在可信数据空间的加持下,数据可以投入训练场、融入模型,甚至内置于一体机。随着数据场景增多、新数据不断引入,可信数据空间能够为数据提供方带来稳定收益,为数据使用方提升模型质量、精准度和其他多样性的应用场景。”杨震分析道,这种模式在数据交易市场的进一步成熟后可以得到更广泛的发展。
04 市场呼唤“产业生态”,行业需要“串珠人”
“人工智能市场的算力、算法、数据几个方面就如同散落的珠子,而行业需要一个‘串珠人’的角色,将产业链上已有的珠子串上、拉紧,如果没有的话,就把它造出来。”在杨震看来,智算中心作为重资产行业,却仅能获取微薄的利润,核心原因在于智算中心距离最终的业务场景太远,在产业链的话语权较低。
若未来智算中心要实现突破并寻求更深层次的发展,吴岳认为有两条路径:一是构建生态,以全栈能力服务更多中小企业客户,二是做万匹以上的超大规模,定向服务少数客户。
市场的本质需求是整体解决方案,而非单一产品或年度订阅服务;智算中心的运营,本质上是人工智能产业链的运营。从健康的业务模式来说,智算中心想要获取更多的市场份额和行业利润,则需要深耕算力产业,实现算力服务化:既能锁定大客户,也能满足长尾中小客户,同时,还需要提供一系列能够助力业务精准落地的增值服务与个性化解决方案。
“对于大部分中小智算中心而言,加入产业生态战略是唯一的解法。”金磊表示。
因此,构建健全的产业生态成为推动算力市场持续健康发展的关键所在。那么,未来,市场需要将建成什么样的算力生态,怎么样的生态能够促进AI产业的持续发展呢?
杨震认为,“串珠人”的角色需要算力运营商来充当,通过汇总闲置算力,匹配客户需求,提供量身定制的解决方案。
当然,构建一个能够高效链接算力行业乃至整个人工智能市场各方的“中转栈”极具挑战。算力运营商需要精准审视算力、算法、数据和场景四层中的壁垒,并通过AI全栈布局突破障碍,帮助智算中心结合当地算力供需情况和产业结构,形成具有地方特色的人工智能产业链运营中心。如此,才能实现闲置算力的有效消纳,并真正发挥AI基础设施的产业赋能作用。
现阶段,各地智算中心正陆续意识到产业生态的关键性,并积极布局探索。其中,北电数智旗下的星火·智算拥有从芯片层、算法层再到可信数据空间层的全栈布局。同时,星火·智算的标杆项目——北京市数字经济算力中心还打破传统形态,将算力展厅、算力剧场、联合实验室以及产投孵化平台等功能空间搬进智算中心,通过打开产业场景、聚集产业要素,最终实现技术攻关以及生态的良性循环发展。
“星火·智算不是简单的建筑,而是“智算中心”和“产业生态”的共生体,通过强大的算力支撑、通用的算法体系、高质量的数据工具,再加上开放的生态思维,能够帮助智算中心实现从工具层到生态层,甚至是客户需求方的全面赋能升级。”杨震说到,截止目前,北电数智已经建联了近1000家生态伙伴,目前有3到4个星火·智算中心在规划或建设中,正与多地政府接洽,将进一步规划更大范围的落地。
孙荣锋对这一生态模式表示了肯定:“构建产业生态是解决当前众多城市算力供需矛盾的有效途径,尤其对于无锡等中小城市而言,是一个理想的解决方案。它通过多元化算力供给,能够整合并解决无锡算力资源规模小且分散的问题。”
针对具体的产业模式,杨震提出了两方向:一是政府、央国企通过公共智算中心的建设及运营,赋能地方产业、实现数字化的高效转型;二是中小企业通过深度融入算力产业生态,实现效益最大化,并进一步推动构建健康可持续的人工智能发展生态。
一方面,当前政府采用的算力券、招商政策等短期措施难以根本解决当地智算中心的消纳问题。
有效的解题之道,在于追本溯源。目前,大量智算中心项目都由地方政府、城投平台主导,所以,建设AI生态可以优先在政府层面开放数据、打开场景。比如,国有企业可以通过开发垂类模型释放算力应用场景,形成第一轮增长点。然后再通过算力、算法、数据层的工具对算力中心做精细化运营,把算力利用率提上去、成本降下来。在此基础上,链接供需两端,结合当地产业结构实现人工智能转型,推动区域人工智能产业特色发展,形成第二轮增长点。
部分前瞻城市已敏锐洞察先机,率先迈出了探索与实践的步伐。孙荣锋在谈及此话题时透露:“无锡数据交易平台上丰富的数据资源,其中有相当一部分能够为人工智能大模型的训练提供助力。以此为依托,无锡大数据集团承建了无锡市的政务大模型项目,正积极探索垂类大模型开发。”
另一方面,当前很多AI垂类领域在产业链上存在断点和卡点,导致市场上众多极具潜力的AI应用公司尚未探索出商业闭环便悄然消失。
以具身智能为例,大量行业上下游中小型企业和个人开发者群体,填补了大企业不愿涉足的细分领域,但它们在开发训练的过程中,却遭遇算力成本、数据搜集成本高昂的双重阻碍,这也进一步成为制约整个产业链落地的最后一道难关。国产算力芯片同样如此,近年来,虽然整体发展迅猛,但由于缺乏全面的应用场景展示和切实有效的评测机制,很多算力应用方对国产算力的能力认知不够清晰。
在北电数智看来,算力及人工智能产业生态的构建能够解决这个急迫问题,通过生态的搭建提供普惠和适配的算力、嫁接海量AI应用场景,帮助中小型应用公司、个人开发者顺利完成开发,加速产品的商业化落地、实现效益的最大化,同时也推动智能科技的前沿应用。
为了填补国产算力全面的应用场景展示、切实有效的评测机制缺失等问题,北电数智打造的“首个国产算力PoC平台”已正式开放。该平台依托前进·AI异构计算平台,是全国首个在生产环境下可实现规模化测试的全栈迭代验证平台,创新‘以评促用’模式,为国产算力集群提供垂类场景评测、适配与验证服务的同时,能够为金融、政务、工业、医疗、具身智能等各行业的AI垂类场景应用开发提供多种算力适配试验空间,最终打通底层算力至业务场景的双向链路,加速国产算力从“可用”迈向“好用”,推动场景化应用与商业化落地。
“AI产业要快速发展,肯定是大家绑在一起、吊起膀子来干。尤其在人工智能重塑科技产业链的时候,团结,才能更快地找出突破性道路。”正如杨震所言,当人工智能产业跃升成为全球战略性高地、当大模型的发展步入“后训练”时代,国内人工智能行业更应围炉共商,共同见证并塑造下一个智能新时代。