今年年初DeepSeek突破性亮相,无疑正在释放出强大的“蝴蝶效应”,驱动行业大模型从“规模竞赛”向“价值创造”的转型。
背后的原因在于,DeepSeek验证了模型性能与算力成本的“可解耦性”,不但为行业提供了降本增效的新范式,也加速了大模型从实验室走向产业端,更带动了行业智能化的进一步“走深向实”。
也正因此,近期包括医疗、交通、制造、教育等千行万业都在通过DeepSeek一体机等各种方式,全方位接入DeepSeek。但值得注意的是,已部署DeepSeek的企业在短时间内就迅速跨越了“试水”阶段,其应用场景也从单一模块测试转向全业务流的贯通,但因业务系统对接后用户量的激增,也导致了其算力需求也呈现出“指数级”增长,而传统的线性扩容模式难以应对大模型高并发、低时延场景下的推理需求,算力底座升级迭代压力骤增,新的难题由此而生。
换句话说,如何将DeepSeek的能力实实在在的落地到行业场景中,仍然是摆在许多企业面前的一道难题,在DeepSeek与行业大模型之间,还需要架设一座全新的“桥梁”。
在此背景下,近期昇腾宣布推出大EP推理解决方案,以更高性能、更高并发以及更优体验等优势,为大模型底座加装了“新引擎”,在不断降低DeepSeek应用门槛的同时,也大幅缩短行业客户迈向大模型应用的周期,可以说真正让大模型应用融入千行万业驶入了“快车道”。
01.
DeepSeek爆火背后,
看大模型进化的趋势与挑战
事实上,DeepSeek爆火背后,更以其超低的训练成本和堪比顶尖闭源模型的效果引起了业界的轰动。除此之外,DeepSeek此前在开源周上公布的一系列推理和训练架构的方案,以及推理成本和盈利空间,其超高的利润同样也引起了业界广泛的讨论——那就是大模型底座从底层技术到基础设施乃至生态体系的接下来发展和进化趋势是什么?未来又会出现哪些新的挑战呢?
一是,从产业趋势上看,未来大模型将会分化成“两派”,并引发新一轮的“百模千态”,其中一派是技术摸高,即头部企业将会持续突破模型能力边界,但伴随而来的是算力需求激增,比如当前一些国外科技巨头就持续推进模型规模扩张,如Grok3需调用20万张H100 GPU,单次训练成本高达数亿美元。
另一派是工程创新,即更关注便捷、易用,具备性价比的平台。最为典型的就是DeepSeek通过工程创新,打造出了一套兼顾成本与性能的蒸馏/微调方案,就极大地降低了大模型的部署门槛,促进了大模型应用的普及。
二是,从技术演进看,未来大模型向大量小专家方向演进将成为趋势所在。具体来看,少量大专家模式会走向性能摸高,而大量小专家模式会走向创新普及,且两种方案会长期共存。
大量小专家模式也被称之为大规模跨节点专家并行(Expert Parallelism / EP)路线,其技术特点是将专家Expert分布到更多的卡上,可以减少每张卡权重加载的时延,减少权重的显存占用,能够显著的提升单卡并行的路数(batch size)。同时,每个专家计算路数的提升还可以提高矩阵乘的效率,从而实现更大的吞吐和更低的时延。
打个比方,比如医院过去采用的是“全科专家制”,资源集中导致检查冗余、患者耗时费钱且挂号难,而此后改为“专科专家制”,通过各科室配备专属团队(如眼科5人、耳鼻喉科10人、外科20人),通过专业化分工和专家团队扩容,由此实现精准诊疗与高效分流,这就能显著降低患者候诊难度。
三是,从具体挑战看,尽管大规模专家并行EP将成为主流趋势,但专家的增多也让如何优化负载均衡、降低通信开销、并充分利用底层资源也成为了技术的难点,同样以医院为例,当医院的某个科室中拥有5个专家,但如果都是1号专家特别忙,其他专家特别闲,这就是专家的“负载不均”;同样,当多科会诊时,专家数量的激增也会导致意见互达的沟通耗时,反而会超过诊疗时长,由此化解通信耗时占比高的挑战也十分重要。
另一个需要“直面”的难题,就是目前国内只能购买所谓“定制版”的芯片H20,但其本质上只是H100的“阉割版本”,它的AI算力仅为H100的15%,这也意味着其单卡算力瓶颈会迫使大规模集群部署时性能不稳定,而高昂成本与低效产出之间也会形成“剪刀差”,且其设计也难以适配当前的MoE架构,同时高“batch size”还会让系统的时延暴增,更无法发挥大EP路线所独有的高性能、高吞吐、大并发的技术优势,最终导致越来越多的行业和企业错失自主创新的“窗口期”,因此寻找替代方案可谓“箭在弦上”。
毫无疑问,DeepSeek带来的最大的启示在于,它重构了行业竞争逻辑,让基座模型的竞争从参数规模转向价值密度,同时也使得大EP路线成为了未来大模型的技术进化趋势,但与此同时如何进一步打破大模型技术门槛高、部署复杂、算力受限、成本高昂等多重挑战,同样对整个行业而言也是“迫在眉睫”。
02.
五大技术“组合拳”,
深度解读昇腾大EP方案
昇腾大EP推理解决方案就此“应运而生”,该方案通过多专家负载均衡和极致通信优化,实现了更高吞吐和更低时延;此外,通过降低单卡显存占用,也使得其单卡性能提升到3倍,在支持更高并发的同时,也显著降低了客户的部署成本,更优化了客户的应用体验,可以说为大模型底座加装了一套“新引擎”,不仅为DeepSeek的部署落地搭建了一座全新桥梁,也让更多的大模型应用从“遥不可及”变为“触手可及”。
那么,昇腾大EP推理解决方案究竟有何关键的技术“组合拳”呢?我们可以从五个维度做更加深入的“解读”。
“组合拳”之一:MoE负载均衡,通过自动寻优、自动配比、自动预测、自动降解,实现了备份节点和副本专家的灵活可扩展、高可用和极致均衡。其中,灵活可扩展指的是路由专家与共享专家隔离部署,实现更大的灵活性;高可用,是能够支持定时迁移和动态迁移;而极致均衡,主要体现在支持专家热度在线感知和热度预测,还支持专家间、卡间以及机间的负载均衡。
“组合拳”之二: PD分离部署,基于多种创新技术,提升系统有效吞吐50%。对比传统部署方案,由于PD同节点部署,导致计算访存资源竞争“加剧”,而目前也有友商推出PD静态分离方案,能提升系统资源利用率,但不够灵活,无法适应动态调整的场景,而华为创新autoPD的“自适应”PD分离部署方案,能够自动感知负载变化,无需人工介入,自动伸缩P、D实例,结合多级缓存内存资源池化,能够实现系统有效吞吐50%+。
“组合拳”之三: 双流/多维混合并行,能够使系统平均性能提升30%。其中,Prefill micro-batch双流并行,在Prefill阶段,通过拆分Batch成两组更细粒度的Batch,实现计算和通信相互掩盖;而MoE expert专家双流并行,则是让共享专家和路由专家实现计算独立,并利用Cube和Vector计算单元,实现两条Stream并行计算;Weight预取双流并行,利用L2 Cache大容量,通信和权重加载采用两条Stream并行,在降低权重加载时间的同时,也有效提升了matmul算子性能。
“组合拳”之四: MLAPO融合算子,能够有效降低计算耗时70%。目前在MLA前处理阶段,传统方案往往采用多算子串行,导致频繁占用内存、通信等资源,整体计算耗时占比高;而昇腾MLAPO融合算子,则是将小算子融合成单一算子,实现Vector和Cube计算并行处理,大大减少了开销,也降低计算耗时。
“组合拳”之五:适配MTP,通过自研解码算法,大幅提升推理效率与性能。在MTP推理场景下,通过支持MTP并优化,让模型的推理效率提升了最大1.8倍;而通过自研的DraftDecoding算法,能够实现一次生成多个token并行校验,不仅采用率提升,且冗余计算减少,多用户并发提高了2倍。
值得一提的是,昇腾大EP解决方案,除了能够满足互联网、金融、电力、通信等行业头部客户大规模实现集群部署之外,同样还为客户采用一体机场景向大EP推理场景的“平滑”扩容升级开辟了新路径——通过交换机实现参数面互联,基于现有组网架构软件升级,就能使集群规模从8卡、16卡灵活拓展至百卡乃至千卡级别,真正让企业能够以最小的成本突破算力底座瓶颈,实现AI大模型集群规模化部署落地的“跃迁”。
由此可见,在五大关键技术创新“组合拳”的加持下,AI大模型系统犹如一台搭载了“涡轮增压”的赛车,无论是在吞吐、延时、并发等性能上都全面得以“拉满”,为千行万业的用户带来了AI大模型应用的全新体验。
03.
降低大模型应用门槛,
按下行业智能化“快进键”
站在当下看未来,如果说DeepSeek通过“轻量化训练+高效推理”开辟的创新范式,使其在数千卡算力约束下打造出了对标全球头部的高性能大模型,一改往日大模型训练“大力出奇迹”的画风,不仅打破了业内对于单卡性能的盲目崇拜,更彻底颠覆了全球基座大模型市场的传统格局。
那么,在当前算力受到“桎梏”,自主创新刻不容缓的大背景下,昇腾AI通过基础软硬件持续进化,以及多年来在“方案+性能+生态+落地”方面形成的体系性优势,也让其成为了未来加速大模型技术和应用创新落地的“最优解”,在为行业提供更多可参考和借鉴的大模型底座创新方案的同时,也真正为行业智能化的加速按下了“快进键”。
首先,方案最全。从预训练到微调到强化学习,从一体机到大EP推理集群,昇腾AI都能提供大模型全流程方案的覆盖,同时昇腾也是目前业界首个可以复现DeepSeek R1强化学习流程,并沉淀到套件,能够助力客户快速完成后训练,这种端到端的能力以及服务,无疑能够最大化的满足客户多样化的场景需求。
其次,性能最优。基于MTP、MLA、大EP并行等技术打造出来的软硬件协同亲和的昇腾架构,还能充分利用底层资源,最大化释放大模型底座的极致性能,而这也让昇腾成为了国内唯一能够与DeepSeek团队进行深度适配并实现“Day 0”发布的平台。更为重要的是,昇腾绝对算力与能效比也显著领先,非常适合大并发高密度的计算场景,且性价比更高,长期运维成本更低,也能够提升客户综合性价比,进一步满足落地经济性的要求。
再有,生态最好。昇腾平台打造了Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能以及一站式开发平台ModelArts等产品体系,同时软件开源开放,并兼容业界主流框架及推理引擎,也能更好地使能业界高效自主创新,也让越来越多的行业和企业可快速获取基于昇腾的开发能力和场景化的解决方案,实现高效业务“闭环”。
最后,落地最快。依托本地化服务与团队布局,昇腾还构建了国内大模型应用落地的全周期支撑体系,能够实现大模型应用的快速验证与商用化落地。例如,就在近日,科大讯飞就率先宣布了其基于昇腾算力大规模跨节点专家并行集群推理的落地,而这也是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于自研算力的全新解决方案。不仅如此,自DeepSeek问世之后,超过100+的合作伙伴也迅速基于昇腾打造了DeepSeek方案、超过25+人工智能中心也实现了DeepSeek的部署上线,真正打通大模型应用落地的“最后一公里”。
总的来说,无论是昇腾大EP推理解决方案的“应运而生”,还是昇腾AI在行业中的创新实践,都验证了这种基于“方案最全+性能最优+生态最好+落地最快”的体系化优势,将会进一步释放出自主算力巨大的“乘数效应”,并让“自主算力+模型开源”的组合创新在中国大模型技术和应用创新落地中占据更多的“一席之地”,由此降低大模型应用门槛,让千行万业能够加速迈向智能化新进程。