当前位置：首页 » 资讯 » 新科技 » 正文

傅盛捅破大模型行业窗户纸：数据是真正的竞争壁垒，算力算法很难做出差异化

IP属地北京 编辑：柳晴雪搜狐科技 时间：2024-11-28 10:00:13

出品 |
作者 | 梁昌均
“大模型行业竞争，真正的竞争壁垒来自于数据，不是说芯片不重要，不是说算法不重要，而是在这两个方面大家很难做出差异化。”在11月27日的发布会上，猎豹移动董事长、猎户星空董事长&CEO傅盛在谈到大模型表示。
这次发布会上，猎户星空推出最新自主研发的Orion-MoE 8×7B大模型，并携手聚云科技推出基于该大模型的数据服务产品AI数据宝AirDS。
MoE（混合专家模型）是今年大模型的主流技术趋势之一，全球主流企业都有在布局，其通过利用多个专家网络处理数据，在提升模型性能、控制成本方面展现出巨大潜力。
早在今年初，猎户星空就推出了面向企业应用的百亿参数大语言基座模型Orion-14B。此次再次发布MoE大模型，则是看到了市场的变化和客户的需求。
“模型既要效果好又要速度快，而MoE能更高效专业地完成企业复杂任务，而且在不显著增加计算成本的前提下大幅增加模型容量。”猎户星空首席科学家韩堃表示。
同时，数据也变得越发重要。傅盛对等媒体强调，百模大战正的核心不在于算力和算法，本质在于数据。
他认为，AI应用产业链里最决定基础能力的是标注的数据，要把高质量数据找出来，并和应用高度结合。“为什么我们想把这个窗户纸捅破？因为我们本质不是靠模型挣钱，也不是靠模型的接口挣钱，而是通过应用去赚钱。”
这也是猎户星空推出大模型数据服务产品AI数据宝AirDS的原因，希望为企业提供更为高效精准的AI数据服务支持，助力企业在AI应用落地过程中实现“最后一公里”的突破。
对话中，傅盛还谈到了目前大模型的技术瓶颈和应用现状。他表示，Scaling Law是不是放缓，基本上还没人敢下这个结论，但顶级模型的成长肯定在放缓，这对创业者未必是坏事。
“我可以大胆预言，GPT-5也不会很快发出来，要不然也不会先发o1。”傅盛判断。
他认为，目前行业还在尝试各条技术路线，不管是MoE，还是强化学习，这是多元化的繁荣，不应该追求太强的确定性。他还称，大模型领域中美差距没有扩大，而是在缩小，比如文生视频，国内效果不错。
对于国内AI超级应用迟迟无法出现的情况，傅盛对表示，这就如同电出现后，电器诞生也过去了很多年，会有滞后效应。
他认为，今天的大模型水平已经足够解决相当大一部分的问题，而且是革命性的问题。“我觉得明年应用会出现爆发，模型的基础能力够，并且模型和应用会做好结合。”
以下是对话精编：
数据是百模大战的竞争核心，仅靠合成数据不够
提问：公司的AI数据宝是否是标准化的数据服务？跟Scale AI和整数智能这些公司在定位上和业务上有什么区别？
傅盛：我们讲百模大战，真正的核心在哪？算力总体就是买英伟达的，就看有没有钱，算法大家也都做的差不多。大模型本质上靠的是数据，产业链里最决定基础能力的是这些标注的数据，如何把高质量数据找出来，和应用高度结合。
大模型行业竞争，真正的竞争壁垒来自于数据，不是说芯片不重要，不是说算法不重要，而是这两个方面大家很难做出差异化。为什么我们想把这个窗户纸捅破，因为我们本质不是靠模型挣钱，也不是靠模型的接口挣钱，我们是希望帮助客户做好应用，我们通过应用去赚钱。
有些大模型公司自己的数据服务做的不错，但是他们不会开放出来，因为开放出来模型就没有竞争力了。我们是业内唯一训大模型、做大模型应用，做数据标注和服务并开放出来的公司，这是我们今天在行业上的独到之处。
真正要讲有什么本质化的区别，每家都会说自己的服务不错，我觉得最后就拿结果来看。今天可以说没有一个特别标准化的产品，因为每家需求不一样，但我们有一套服务体系，检测体系，怎么帮助把数据快速做精标，快速做标准的衡量，在实践当中能够看到效果。
提问：AI数据服务是否意味着不再需要人工？数量和质量如何兼顾？
韩堃：大模型时代，我们的数据服务，比如筛选、清理、去重会大量借鉴AI模型和工具来提高标注效率，但最高质量的数据，还是需要人工。
在训练模型的过程当中，数据数量和质量都非常重要，但很多情况下会有一些矛盾。这可能要通过大量实验来找到一个比较合适的点，这更多是跟目标相关，是做预训练，还是做微调，或者是应用相关，它们对数量和质量的要求不太一样。
傅盛：这本身要根据应用本身确定数量和质量之比，这也是核心竞争力。传统数据服务公司的简单标注，大模型时代非常不够用，难满足客户需求。这某种意义上得投人力、物力，因为大模型是个黑盒，就是实践出真知。
提问：数据不足是个大难题，有些厂商在进行数据合成，这个能解决数据的问题吗？
韩堃：有预测2028年全世界人类知识的数据会被用完，所以高质量数据越来越少。合成数据是很重要的一个补充，但仅使用合成数据肯定是不够的，因为合成数据没有办法避免模型本身所带有的系统性的偏差，可能还要再进行处理，比如人工调优或其他数据增强，去提升合成数据的质量。
提问：数据标注这个产业之前就有，到了大模型时代关注度就非常高，原因是什么？国内的数据标注产业怎么看？有没有机会？
傅盛：大模型的出现，让整个标注或者数据服务的能力发生变化，很重要一点就是技术和标注服务得一体化，原来的那种方式已经适应不了。如果没有做过大模型应用，没有做过这个大模型本身，其它企业要走进来还是不容易的，很难从客户角度出发，构建这套体系需要时间，当然也不乏也许会有不错的公司涌出来。
技术放缓对创业者未必是坏事，明年应用爆发
提问：今年业内对Scaling Law放缓有很多争议，您怎么看？怎么看明年大模型的发展？
傅盛：Scaling Law放缓，基本上还没人敢下这个结论。但从客观事实上看，顶级模型的能力的成长，肯定是在放缓。这受限于数据的容量，互联网整体的高质量数据是20T，还有多卡并联、电力不够的问题。
我可以大胆预言，GPT-5也不会很快发出来，要不然也不会先发o1。o1本质上是希望通过模型自主推理，用强化学习的方式去产生更高质量数据，这条路走我觉得还需要一点时间。
但我想说这个状态对于创业者，尤其是对做应用的创业者，未必是坏事儿。模型迭代太快，底层东西太快，就像流沙一样，在上面构建东西很容易被弄掉，或者白做。现在模型能力到了一定的固态的时候，我觉得应用反而会开花。今天可能没有特别顶级的应用，明年应用的繁荣是可见的。
提问：大模型技术在放缓，业内尝试的MOE架构、强化学习，或者数据服务能多大程度解决技术瓶颈的问题？
韩堃：我觉得这就是看想做什么样的事情，OpenAI目标可能如何实现通用的人工智能，肯定会花大量时间在新技术、新算法，包括模型架构上的突破。
如果我们的目标是想打造更好的应用，更好的为客户服务，那可能我们会觉得算法、数据在当中起的作用会更大一些。有更加成熟的算法框架，或者更智能的模型出来之后，我们也可以基于这样的技术路线，再去通过数据不断增强，提高我们在应用方面的效果。
傅盛：我觉得行业都在追求一个确定性的答案，但我想说这个答案真的不确定。去年的时候大家都认为OpenAI会席卷一切，后来我跟李志飞（注：出门问问CEO）聊，他说咱们都别做太大的模型，不然一年以后肯定大模型过剩，应用不够用，今天基本就是这样一个逻辑。
最近我去欧洲英国见了朋友，有人认为Transformer会过时，5年之内一定被淘汰。我在香港大学跟马毅教授见面，他的团队要把Transformers整个过程白盒化，这样就不需要超炼丹模式，拿十分之一数据比现在做的还好。此外，像苹果这样的公司做了小参数的模型。
所以各条技术路线都在尝试，所以今天到底是算法的更新，或者强化学习的加固，或者数据精标，能让底层能力大进一层，说实话我不知道。这是技术路线的多元化繁荣，还是尽量不要去追求那么强的确定性。这可能是我们和国外创业者不同的地方，他们追求更多的是风险性和不确定性。
但是有一些确定性的事情正在进行，比如GPT-5的发布肯定会再延迟，明年或者年底能不能出，我划个问号。第二，如果今天我们要做应用，最好的突破点是高质量的数据，和应用需求结合。今天的模型不再进步，但也足够解决相当大一部分的问题，而且是革命性的问题。
提问：有人说我们的差距在扩大，也有人认为没有必要跟国外比，要发挥优势，打造超级应用，但好像也还没出现，您怎么看？
傅盛：大模型领域中美差距没有扩大，反而在缩小。我在国外翻译拿国内的模型的APP用，某些地方比ChatGPT还好用，理解力我认为已经超过人。再比如文生视频，国内做文生视频，效果已经相当不错。
应用会有滞后效应，电出来之后，电器出来也过了很多年。现在更多的公司也知道，只买个模型授权没用，得把自己的数据拿去训练，做好标注的服务，这是行业不断契合的过程。去年有大模型公司卖模型授权就卖几个亿，今年卖不动了。
明年应用会出现很多爆发，因为模型的基础能力够用，把模型的基础能力和应用做好结合，而且找到特别垂直的场景，刚开始大家都很泛。
提问：现在国内外都在做的AI搜索会是好的应用吗？怎么看金融等领域的AI企业级应用？
傅盛：AI搜索算是好方向。Perplexity融那么多钱，微软Copilot反响不怎么样，这表明越清晰垂直的场景，用大模型去做，爆发力可以很强，AI搜索已经可以达到非常高的准确率。
这肯定是一个好的场景，到底谁能胜出呢？我们也投了，我们老对手也在做，国内基本所有大模型APP都加了搜索功能，这肯定会非常白热化。
对于企业级应用，我觉得到明年也会逐渐展开。今年上半年我们做企业应用，花了很长功夫去磨合，也摸索出一些规律，后面就会逐渐标准化和SaaS化，我觉得这件事是肯定可行。
今天可以看到很多AI应用，搜索是一个特别有认知类的场景，但在很多垂直类的场景，可能没那么大，但AI的应用都在不断深入。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

台积电将推出新CoWoS封装技术：打造手掌大小高端芯片

小马智行成功上市成全球“Robotaxi第一股”

轻薄机身超长续航！vivo S20深度评测

周鸿祎短剧首秀：3天编拍剪，超2000W话题量，贾跃亭、TCL总裁“争投100亿”？

云贵菜发展报告2024：门店数超4万家，云贵风味走向全国

霸榜全球AI产品Top100、重启App工厂，熟悉的字节跳动又回来了

快手守城之战

最强Mate遇见最好的「Mate」：原生鸿蒙的「升级」时刻

《黑神话：悟空》等强力带动电竞显示器线上销量大增50%

伊利集团张轶鹏：探索“双足迹”产业链减碳，低碳产品为绿色消费提供更多选择

微星笔记本推出年底大促活动晒单可获赠4299元掌机

网友凭空捏造岚图汽车虚假谣言：被判道歉30天、赔偿4000元

恶意诋毁岚图汽车，李某华被判道歉、赔偿4000元

《幻兽帕鲁》12 月更新将引入“史上最大”岛屿：规模为樱岛 6 倍

发布虚假内容恶意诋毁岚图汽车，李某华被判道歉、赔偿 4000 元

一加Ace5系列有望配备全新电竞WiFi芯片提升联网速度与信号稳定性

苹果16年前专利揭示Vision Pro头显雏形其设计预示最终产品形态

华为侧边、苹果面容、小米超声波...我要说些手机解锁的大实话了

新款Steam手柄渲染图曝光新增双模拟摇杆和完整传统控件元素

那个华为Mate 70首发的“一抓一放”，至少有俩老旗舰也能用

真我V60 Pro内置5600mAh电池 12+256GB规格起步

消息称Kimi正灰度测试AI视频生成功能上线后每天可免费生成100秒

拥有灭霸续航的轻薄美学旗舰！vivo S20上手体验

中国酒业流通协会会长王新国：酒业长期向好的趋势不会变，要拥抱创新探索新的发展模式和路径

小米15 Ultra外观设计细节曝光经典黑红配色展现专业相机风格

荣耀300 Ultra两种配色官图发布镜头DECO印有红色标识

联想发布“百应”智能体：企业可不限次数线上IT问诊

全站最新

台积电将推出新CoWoS封装技术：打造手掌大小高端芯片

小马智行成功上市成全球“Robotaxi第一股”

轻薄机身超长续航！vivo S20深度评测

周鸿祎短剧首秀：3天编拍剪，超2000W话题量，贾跃亭、TCL总裁“争投100亿”？

云贵菜发展报告2024：门店数超4万家，云贵风味走向全国

霸榜全球AI产品Top100、重启App工厂，熟悉的字节跳动又回来了

快手守城之战

最强Mate遇见最好的「Mate」：原生鸿蒙的「升级」时刻

热门推荐

台积电将推出新CoWoS封装技术：打造手掌大小高端芯片

小马智行成功上市成全球“Robotaxi第一股”

轻薄机身超长续航！vivo S20深度评测

周鸿祎短剧首秀：3天编拍剪，超2000W话题量，贾跃亭、TCL总裁“争投100亿”？

云贵菜发展报告2024：门店数超4万家，云贵风味走向全国

霸榜全球AI产品Top100、重启App工厂，熟悉的字节跳动又回来了

快手守城之战

最强Mate遇见最好的「Mate」：原生鸿蒙的「升级」时刻

《黑神话：悟空》等强力带动电竞显示器线上销量大增50%

伊利集团张轶鹏：探索“双足迹”产业链减碳，低碳产品为绿色消费提供更多选择

微星笔记本推出年底大促活动晒单可获赠4299元掌机

网友凭空捏造岚图汽车虚假谣言：被判道歉30天、赔偿4000元

恶意诋毁岚图汽车，李某华被判道歉、赔偿4000元

《幻兽帕鲁》12 月更新将引入“史上最大”岛屿：规模为樱岛 6 倍

发布虚假内容恶意诋毁岚图汽车，李某华被判道歉、赔偿 4000 元