访谈 | 苏建勋
文 | 王方玉
编辑 | 苏建勋
如果说2024年的CES上,AI更多是作为独立亮点被少数企业展示;今年的CES 2025,AI与消费电子产业的融入更加广泛和深入,恰如这届CES的主题「Dive In(沉浸)」。
以智能眼镜产品为例,本届CES上,从 Rokid、雷鸟、Xreal、INMO 等 AR 厂商,到星纪魅族、雷神科技、大朋等跨界选手,再到 Haliday、Vuzix 等新创公司,中国厂商们在万里之外的美国,上演了一场“AI百镜大战”。
在CES展会现场,《智能涌现》发现,从无弦吉他、AI面膜,到戒指、拐杖、AI自行车……生活中的各类硬件产品,都成了AI大模型落地终端的新“面孔”。更不用提早就拥抱大模型的各类消费电子——从AI眼镜、AI耳机到AI陪伴机器人,再到AI PC、手机和学习机等等。
CES本届主题「DIVE IN」;拍摄:苏建勋
AI,在这场消费电子行业的“春晚”中,无处不在;但热烈的表象背后,AI硬件行业更需要深入的“冷思考”:
从“用上AI”到“用好AI”,硬件厂商们还要跨过几座山?当产品搭载AI大模型不再稀奇,AI还能否给产品带来卖点和溢价?AI大模型不断迭代,被赋能的智能硬件能跟上步伐吗?
更有智能硬件厂商创始人对《智能涌现》发出灵魂拷问:当一个赛道的大部分玩家都用上了AI,是不是从侧面说明这件事门槛太低了?
在CES 2025现场,《智能涌现》采访了四家积极拥抱AI大模型的智能硬件厂商,分别是未来智能(AI耳机)、学而思(AI学习机)、李未可(AI眼镜)、INAIR(AR眼镜),他们分享了现阶段在各自细分领域应用AI大模型的实践、探索和挑战。
学而思CTO田密:中国用户很难为AI软件买单,软硬件结合是更好的方式
1.现在中国的智能硬件行业,还没有厂商能真正地把端侧大模型放到产品线上,都是跑在云端的。因为现在中国的端侧芯片不成熟,还跑不起大模型来。
2.但未来2-3年,我预测会有一些简单的大模型,可以在端侧运行,剩下的复杂运算再依靠云端。
3.我们在学而思的硬件产品上落地大模型才不到一年,之前的两年时间都在探索。我们发现AI软件在中国很难单独落地,中国用户是不会为一个APP买单的,他们觉得AI技术不值钱。
软硬件结合,是消费者能感觉到的一个很好的方式。我们把各种AI功能放到了学而思的学习机上,用户实际数据证明,使用频次最多的就是各种AI应用,如AI批改、AI讲题,还有跟智能助手“小思”互动。
学而思的AI学习机企业授权
4.最开始的时候我们希望自己从零开始训练一个自己的大模型,但训了一段时间发现越来越多更好的开源基座模型出来了,自己做预训练其实是非常不划算的。后来我们就在全球最好的多个开源大模型基座上,加了很多教育领域的专用知识进行再训练。
我们的做法是,砍掉了通用知识的预训练,但其他的一步都没省,包括专业知识的预训练、微调和强化学习都是一直在进行。
5.和以前的AI模型相比,大模型给学而思的产品能力带来很大提升,主要体现在两点,一是工作(如AI批改)的准确性大幅提升,性能更好更强了;另一个是原来不能做的任务现在能做了。
6.大模型的持续训练和强化学习技术难度很高,需要很聪明的人才在不断的实验中去探索尝试。这个领域需要人才既懂算法,又能做工程化,他的research和development都要强。
7.同样是接入学而思的模型能力,硬件形态对于用户的接受度很重要,比如学习机就比手机更方便用户学习。我们现在既有独立APP,也有学习机。目前国内有非常多的厂家,包括手机厂商、Pad厂商、PC厂商,还有眼镜厂商都在接学而思的API。
未来智能CTO王松:大模型在朝两个方向发展,一个是基座,一个是端侧
1.未来穿戴式设备将是一个所谓的AI agent,可以时时刻刻陪伴用户,而不用像手机一样必须拿在手里。它具备多种传感器,可以做用户的眼睛或者耳朵,去感知周围的环境,并给予用户反馈。
2.目前未来智能迭代的重点在往个性化的方向努力。我们把用户的会议内容里有用的信息给结构化抽取出来,通过数据库或者RAG的形式存起来,从而形成大模型的长期记忆。这一块的记忆最终会关联到用户的个人助理上,个人助理会根据用户个人的偏好,生成一些个性化的、符合偏好的答案。
3.AI眼镜现在可以跑一些算力,比如Ray-Ban meta上就搭载了一些本地模型,可以通过SOC芯片实时运算。但AI耳机因为SOC算力不够,所以用的还是云端算力。现在我们看到的所有市面上号称智能耳机的,差不多都是靠云端的算力。
4.算力部署在端侧的话,大模型响应更快更及时,也更加安全。很多用户关心数据隐私,比如一些投资人开的会议可能非常敏感,不想让数据上传云端。未来智能的AI耳机提供了这个功能选项,用户的数据可以不上云,就存在耳机或者手机里。
未来智能的AI耳机企业授权
5.AI大模型目前在朝两个方向发展,一个是基座大模型,它的参数和数据量越来越大;另外一个方向就是端侧,它的效率越来越高,安全性、数据安全等也有保障。这是两个方向,其实并不冲突。
6.AI能力的迭代或者进步进化,对穿戴式设备未来的影响其实是非常大的。我预计五年之后,耳机上应该也可以跑一些本地AI大模型。一旦到那个程度,耳机就可以作为独立设备使用,很多交互场景就不用依赖于手机。这对用户交互层面的一些体验会带来质的变化。
7.目前能通过接入大模型来实现高溢价的AI硬件,还比较少。这背后涉及到一个行业的发展阶段的问题。现阶段来讲,其实所谓的智能耳机,都是依赖于手机端的软件来实现的。我觉得可能要发展到一定程度,耳机本地就能跑一些端侧模型,才能真正达到所谓的智能耳机。
要实现真正的“智能耳机”,目前主要有两个卡点,都是在硬件上面,一个是SOC芯片的算力,耳机的算力芯片既要体积小,又要算力强,很难实现;另一个是电池续航问题,把SOC芯片塞到耳机里,功耗会很高,续航时间很短,用户很难接受。
李未可创始人茹忆:AI眼镜应用开发成本远低于XR生态,不会走XR老路
1.我认为人类获取信息信息密度最大的还是通过眼睛,所以我的直觉是,AI眼镜是离眼睛最近的消费载体之一,是承载语音交互这个交谈式AI最佳的载体。
2.搭载在AI眼镜上的杀手级应用,未来两年肯定会出现,这是李未可必须要做的事。否则AI眼镜就变成了一个单纯的“壳”,价值不大。
3.2021年我创立李未可的时候有一个判断:接下去的三年,AI会有一个爆发式的增长。但没想到这么快,2022年底就已经开始了,超出预期。所以2023年春天我们就做了一个选择——All in AI大模型。
在产品设计的时候,我们一直在坚定做的两件事,一个是要把AI交互做好,第二个是把人格化做好,实现千人千面。
当然,我们更看重的是,我们自建整个大模型体系,它是完整的,而且我们可以不断去迭代。而不是说把东西交给第三方模型公司,自己完全没有办法掌控。
李未可的AI眼镜企业授权
4.AI大模型在网页上提供信息整合的很好,但如果直接接入到眼镜里效果不好,它需要一个融合的过程。
比如我问AI眼镜今天天气怎么样,AI大模型不会直接回答,而是问你在什么位置?所以AI眼镜要有好的体验,必须对搭载的AI大模型进行优化和调整。
5.对于我们AI眼镜的创业公司来说,做大模型相关的事情其实并不需要雇佣很多人。我们整个打模型团队可能就十来个人,但是我们可以站在巨人的肩膀上去微调和优化。
6.不光是智能眼镜,任何一个行业走到今天这个阶段,都会产生激烈竞争。没有竞争的市场不繁荣,竞争是必要的,可以共同教育市场,更快地向消费端做渗透。前几年智能市场竞争少的时候,教育市场的成本太高。
7.过去XR生态不太成熟,导致销量不好,很大程度是因为生态不够完善、应用开发成本太高。AI眼镜不会走这个老路,因为它的开发成本远低于XR生态。如果能找到一个合适的场景的话,有可能一两个开发者就能把agent做出来。
INAIR产品设计负责人齐静轩:未来AI Agent本身会独立成为一个OS
1.从有操作系统以来,大家都会想有电脑里面会有一个像“小助手”的东西,去帮助你解决很多事。但是在以往过程中,包括siri、小爱同学或者是Google Assistant,其实都没有做得太好,大多数情况都是失效。因为用户不清楚AI对话的边界能力究竟在哪。大模型的出现改变了这件事,它让所有的问题都有了底兜,让所有谈话都能进行下去。
2.2022年底ChatGPT刚爆发,我们就意识到了这种趋势,在INAIR的产品中加入AI大模型一开始就在我们的计划中了。
INAIR应用大模型和目前市面上大多数AI眼镜、AI硬件不一样,它们的AI主要功能是帮助用户理解外部世界。INAIR主要是帮助用户更高效的解决软件和系统操作层面的问题。
3.对于INAIR来说,产品用上大模型和微软Windows PC用上Copilot差不多,都是作为一个重要的卖点。大模型可以更好地解决用户体验问题,给用户更自然的交互和更快、更方便的体验。
4.INAIR合作的AI大模型很多,我们发现不同大模型擅长的东西不一样,比如说豆包可能对图片的理解能力会比较强,讯飞在ASR(语音识别)交互上能力特别强。INAIR会在不同的场景调用不同的大模型。
INAIR的AR眼镜企业授权
5.INAIR的产品优势在于软硬件一体。在软硬件一体的环境中,AI多模态可以实现从感知预测到交互、交流在到执行的闭环。
这也是INAIR产品的优势。比如,用户可以一边看一篇英文的论文,一边实时把中文翻译呈现在眼镜屏幕上,或者直接语音问agent这篇论文的中文概要是什么。再比如在看电影的时候,可以就画面里的人物或者物体直接问agent问题。这都是要系统层面的类siri角色才能实现的功能,它可以灵活调用不同的应用程序。
以上这些操作,单纯靠软件也可以实现,但需要点击鼠标、复制粘贴、切换不同APP页面,操作要繁琐很多,这就是软硬一体和纯软件的差异。
6.软硬一体的设备还可以做到主动的感知和预测,比如说,设备传感器发现用户在某个界面较长时间停留,系统agent可以有针对性的提出服务建议。
7.我们希望端侧的大模型(技术)可以进一步完善,让AI大模型在AR眼镜不联网的情况下可以调用。这样做的一个好处是反应更快,目前云端的大模型方案反应速度还是比较慢;另外,不联网的话,用户在使用时可以更好地保护隐私,更加安全。
8.今天用户所有的硬件形态,不管是计算机、手机,还是电脑,都是在解决用户和最终的那个应用之间的问题,AI是OS里面的一个应用和功能。但未来AI Agent本身会独立成为一个OS,解决这些列表式应用的分发问题。