出品|
作者|张莹
从5月15日至今,豆包大模型已经正式发布了七个月。
在七个月前的春季火山引擎原动力大会上,字节跳动正式发豆包大模型家族,并宣布大语言模型价格以厘计算;七个月后的冬季原动力大会上,豆包视觉理解模型正式发布并公布定价,视觉理解模型也进入厘时代。
截至12月中旬,豆包通用模型的日均tokens(模型处理的基本数据单位)使用量已超过4万亿,较七个月前首次发布时增长了33倍。
在大会期间的群访中,火山引擎总裁谭待对等媒体谈到了多个齐头并进。
首先是2C、2B 齐头并进。“因为想娱乐要处理信息,获取知识要处理信息,处理工作要处理信息,企业自己运转也要处理信息。”
此外,谭待指出,从 B 端角度,现在大家说的 Agent(智能体) 其实是不够的。谭待认为 Agent 的价值在于能辅助人多长时间的工作。如果辅助人一分钟的工作,比如写打油诗,价值不大。如果能辅助一个人几个小时的工作,比如说教育,这个价值是比较大的。
谭待还表示,大模型跟过去所有的技术不一样,过去的技术 2C 端跟 2B 端是割裂的,但是大模型不一样,大模型的 C 端和 B 端背后是同一个东西,就是模型本身。
近期,字节跳动发布了首款AI智能体耳机Ola Friend,该款耳机接入字节跳动旗下豆包大模型。同时,百镜大战也频繁被提及。
谈到AI在硬件方面的落地时,谭待提出了第二个齐头并进,“物理、虚拟是齐头并进的。”
他解释道,“物理世界也是服务于人的,服务于人就要和人打交道,听觉、语言、视觉都要做,这些事以前其实做不好,但是大模型可以做好。”
对于竞争,谭待指出,自己现在不太关心竞争,大模型这个市场还在很早期的阶段,可能这个市场千分之一刚刚开发出来,要关心用户的需求有哪些没有被满足。
以下为对话精编:
媒体:现在通用语言模型的能力,比如说能对话,目前的市场需求是否是有限的?今年的调用量增长比较迅猛,后面会持续吗?
谭待:对话是一个很通用的场景,但是实际上大模型本身在很多场景,特别是生产力的场景(需求)也会非常大。聊天机器人的聊天是很基础的功能,加上深度推理的、图像视觉理解等各种各样的功能,才能处理更复杂的任务。而能解锁更多复杂任务的才是模型未来发展空间越来越大的前提。
媒体:您提到 chat(聊天) 本身是一个相对基础的功能,现在大家行业都在讲所谓的全能 AI 助手,您会认为它是一个偏同质化的阶段吗?
谭待:“理念”大家肯定都是同质的,但做不做得到是另外一回事。从 B 端角度,现在大家说的 Agent 其实是不够的,我觉得 Agent 的价值在于能辅助人多长时间的工作,如果辅助人是一分钟的工作,比如说帮你写首打油诗,那这个价值就不大。如果能辅助一个人几个小时的工作,比如说教育,帮你端到端地完整地教育、辅导作业,这个价值是比较大的。我觉得今年还没有谁能做到,明年会有一些突破。
媒体:最近中国电信在发一些大模型的产品,市场竞争对手变多,火山引擎在大模型或者 2B 怎么更好地发力,展现火山引擎的优势?
谭待:这个市场还在很早期的阶段,可能这个市场千分之一刚刚开发出来。这个时候其实不用关心竞争的问题,关心的是用户的需求有哪些没有被满足。比如说视觉之前都没有满足好,模型又不好用,价钱又贵,我们这次推出来后希望一次做到位,这样大家就能用起来,用起来就有更多的反馈、更多的创新。
媒体:字节跳动 2C 的产品活跃度也比较高,您觉得大模型的未来是在 2B 市场还是在 2C 市场?
谭待:就我们的数据来看,在工作、娱乐、生产力的场景其实是差不多的,所以我觉得大模型就是 2C 和 2B 齐头并进,因为娱乐要处理信息,获取知识要处理信息,处理工作要处理信息,企业自己运转也要处理信息。
媒体:现在也有人在谈 AI 眼镜,您怎么看AI在智能硬件落地的可能性?
谭待:前面提到 2C、2B 齐头并进,物理、虚拟也是齐头并进。物理世界也是服务于人的,服务于人就要和人打交道,听觉、语言、视觉都要做,这些事以前其实做不好,但是大模型可以做好,所以我觉得大模型比过去的很多技术都更容易连接数字世界和物理世界。
媒体:9 月之后有几家国内公司都有提到自己在做推理模型这方面,字节在推理模型这块有没有布局?目前的进展如何?
谭待:肯定有布局。今天我们的(产品)虽然没有叫这个名字(推理模型),但是我们有些能力已经具备雏形了,比如说数学、物理、代码。我们还是做得比较完善了再推出,大家敬请期待,不会太久。
媒体:今年大模型带动了多少公有云的收入,有没有达到预期?
谭待:我现在不看带动多少云的收入,看的是有多少客户用了我们大模型以及用得有多深。从这个角度来说,我觉得做得还是可以的,我们在整个市场份额上都做到了比较大的领先。
媒体:这次 OpenAI 的发布会可以看得出来 OpenAI 从以前的技术标杆导向型,逐渐往应用型发展。 OpenAI 这种标杆企业已经往应用端走,是不是说明大模型发展遇到了瓶颈?
谭待:我觉得 OpenAI 是一个做技术和做应用都非常棒的公司。大模型什么时候火的?GPT 论文已经发了好几年了也没那么火,是因为把 ChatGPT 这个产品做出来了,大家用了以后觉得太棒了。所以OpenAI一开始其实就是做应用,而且做得还不错。但后面因为随着模型的提升,能解决的问题越来越多,应用的形态要发生变化。我始终认为技术和应用就是齐头并进的。并不存在我把技术做好,我就是技术公司。
媒体:SORA 上线后不久 OpenAI 出现了算力不够用的情况,最近,豆包视频生成大模型开放后,对算力的布局如何?
谭待:从我们自己的储备上我觉得(算力)还是很充足的。此外,新功能上线,用户使用的时候出现了卡顿或者阻碍,不一定是算力不够的原因。毕竟你用的是一个应用,前端、接入端,哪怕用户验证出了问题,也会影响到整个系统的流畅性,这不只是简单的算力问题。
媒体:您提到豆包大模型要争当行业第一,豆包大模型的核心竞争力是什么?
谭待:做好模型有很多点,算法、人才、数据、工程都很重要。如果只说一点就是,大模型跟过去所有的技术不一样,过去的技术 2C 端跟 2B 端是割裂的,大家天天刷抖音,但是天天刷抖音是不是会天天用火山引擎的云?这是没有必然关系的。但是大模型不一样,大模型的 C 端和 B 端背后是同一个东西,就是模型本身。
有好多人问我企业怎么做 AI 转型,第一 CEO 自己下个豆包 APP。以前 2B 很多使用者是分离的,决策者感受不到这个东西好不好,只能通过听汇报,听 PPT。而大模型是第一个决策者自己可以感受到这个技术好不好的。