封面来源 | IC photo
今年百度世界大会主题定为“应用来了”,大会现场李彦宏表示,这一主题代表了百度对于当前大模型行业发展的判断——进入2024年,国内大模型开始走入不同于海外同行的发展路线,即从投入底层模型转向探索应用层——这也基本是目前的行业共识。
国内大模型厂商在底层模型卷了近两年后,几乎所有公司和投资人都开始焦虑商业化落地的进度,“killer app在哪里”成为焦点。
虽然不少C端AI软件应用已经面世,但现阶段来看,用户渗透率及制造现金流的能力仍较为初期。
以曾经火爆一时的妙鸭相机为例。百度指数显示,妙鸭相机从去年7月17日上线,热度从7月23日开始上升,8月初达到峰值,随后就开始缓慢下滑。根据数据分析公司Sensor Tower统计,大部分头部“AI+图像”应用的生命周期只有两个月。
这背后透露的问题是,对用户而言,这些应用是否真正“有用”,以及是否满足了用户的真实需求。
基于类似的观察,李彦宏在百度世界大会上提出,百度“不做超级应用,但要做超级有用”。
一、如何“超级有用”
百度主要通过新发布的两大赋能AI的技术——iRAG和秒哒,来展现自己对“超级有用”的理解。
需求侧看,iRAG和秒哒有各自的“有用”价值。在李彦宏的描述中,文生图技术iRAG的商业价值在于无幻觉、超真实、没成本、立即可取,秒哒则能进一步降低大模型的应用门槛,释放社会生产力。
RAG(检索增强)是过去一段时间大模型行业的共识,为了追求模型落地的准确性,“幻觉”必须被消除。
在12日下午的一场AI圆桌访谈中,李彦宏表示:“过去两年,RAG使大语言模型具备了实用价值,可以有效控制幻觉生成,所以它才在各个场景,尤其是to B场景应用起来。但是多模态要想进入真正实用阶段,也得有准确性、可控性,应用空间才能打开。”
李彦宏指出,过去24个月,大模型的最大变化是基本消除了“幻觉”,但图像和RAG技术的结合还远远不够。在他看来,多模态模型还没有大规模应用的原因,就是幻觉问题解决得还不够彻底。这是需求痛点决定的。
因此针对这一用户需求的痛点,百度决定先通过iRAG这一技术解决实际的幻觉问题,再谈多模态应用。
而做秒哒,是相对于提高程序员效率,百度看到了更有意义的潜在需求。
“当几亿、十几亿人都具备程序员能力的时候,它对于创造力的爆发,是辅助代码生成工具没法比的,那些工具是让金字塔塔尖的人更加powerful,而我们希望金字塔中间层和底层的人,拥有金字塔塔尖这些人的能力,这个意义更大。”李彦宏表示。
供给侧看,秒哒的构建模式也与百度对大模型发展的判断有关,即通过多个“智能体”协作的方式进行开发,比如程序员智能体、写作智能体、检索智能体、质检智能体等。
李彦宏认为,Chat GPT-o1的方向和百度去年四季度开始讲的“智能体”异曲同工,“智能体可以反思、进化、使用工具,这个方向和传统意义上大语言模型的方向确实不太一样。”
而在各大模型公司追赶Sora的这一年中,百度最终选择推出iRAG技术,李彦宏认为,Sora不等于就是多模态。
“Sora本质上是任意场景下的视频生成能力。它的本质是可以做到基本预测未来,预测一个画面的下个10秒会变成什么样子。”李彦宏表示,但按Sora现阶段的技术进展,还无法解决更实际的问题,比如数字人,生成的文字用语音表达出来,同时形象动作也要配合,这靠“任意场景下生成视频的产品”,不一定能做好。
按照李彦宏的说法,Sora是较为理想化的终极目标,在达成这一目标的路上,还有很多细节问题待解决,比如iRAG就是来解决问题的。
“百度不做Sora,不等于百度不做多模态。先把iRAG跑起来,是百度的思路。”
二、脚踏实地与应用驱动
值得注意的是,李彦宏在本次世界大会的演讲,鲜少出现底层模型迭代和进化等大议题,而是更多聚焦在了“多少人能够用模型能力做多少事”。
这样一个更脚踏实地的转变,映射了行业整体思路的变化,即手中不放弃底层研究,但眼中要看向务实的落地目标。李彦宏表示“应用驱动是第一性原理”。
但这并不意味着要焦虑“超级应用”。
“大模型这一代超级应用出现的时间点,不应当和互联网刚出现时比较,而是应当和电力革命时比较,也就是说,这一代超级应用或许不局限于一个设备上的app,而是一种类似基础设施的应用。”李彦宏指出。
相对于互联网,大模型是一个全新的底座,在这一底座之上将相应地建立新的生产力和生产关系,而在大模型还没有真正变为基础设施之时,追逐“超级应用”也为时尚早。
基于此,李彦宏才提出“不断赋能数百万‘超级有用’的应用”这一概念。相比于自己做出“超级应用”,百度更倾向于为开发者提供生态。
“我们内部同时做十款应用或者最多一百款,外界可能有一万个创业公司在试各种各样不同的赛道,所以一万对一百,哪一个做出来的可能性更大?一定是外界做出来的可能性最大。所有我们主要精力还是放在做工具,做基础平台,让大家更容易地在这上面开发应用。”李彦宏表示。
至于新一代基础设施呈现在用户面前的可能形态,现阶段而言,李彦宏认为是“智能体”。
比尔·盖茨曾对智能体下定义:可以响应自然语言,并且可以根据对用户的了解来完成许多不同的任务,称为智能体。智能体不仅会改变每个人与计算机交互的方式,也将是下一个平台。
从大语言模型到智能体,不可否认的是,搜索公司对这项技术有天然优势。
李彦宏表示:“当有很多智能体的时候,还是要解决如何跟人的需求高效匹配的问题,人有了需求以后,上哪儿接触到这些智能体?最高效的连接还是搜索。”
也就是说,举例来看,未来用户在百度搜索框搜索时,响应的结果不仅有传统信息检索的结果,还会有匹配的智能体结果。
不过李彦宏也指出,拉长时间线来看的话,智能体肯定是过渡形态,“但我判断这个过渡形态会持续比较久时间,即使是AI worker出现以后,它跟智能体还是会长期并存。有些东西可以完全自动化了,有些东西还是需要通过人和AI的协作来完成,分不同的场景。”
短期而言,对于明年AI行业可能出现的变化,李彦宏的关键词是“清晰”“哪个方向更有前景,哪个方向要再等几年,明年会更加清晰。”