作者|冰拿铁
编辑|星奈
媒体|
模圈代有才人出,各领风骚几十天。还没从DeepSeek的“技术眩晕”中缓过来,百度又给我带来了亿点小冲击——3月16日,百度正式发布文心大模型4.5及文心大模型X1,性能远超预期,并宣布提前免费:
目前,两款模型已在文心一言官网上线,免费向用户开放。据介绍,文心大模型4.5是百度首个原生多模态大模型,其多模态理解、文本和逻辑推理能力显著提升,在多项测试中表现优于GPT4.5,API调用价格仅为GPT4.5的1%;文心大模型X1为深度思考模型,性能对标DeepSeek-R1,调用价格约为R1的一半。
其中,作为百度新一代基座大模型,文心大模型4.5的多项基准测试成绩优于GPT4.5、DeepSeek-V3等,并在平均分上以79.6分高于GPT4.5的79.14分。
刚一发布,海外博主瞬间不淡定了,纷纷点赞称炸裂。没有对比就没有伤害,甚至有博主转发了百度的官推并直言:“美国AI公司(就该像这样)把全部时间花在开发和创新上,而不是无所事事地闲逛,一边祈祷自己受到保护、不必竞争。这是缺乏自信的糟糕表现!”
那么,此次的“文心双雄”都带来了哪些维度的性能提升?据悉,文心大模型4.5通过多个模态联合建模实现协同优化,多模态理解能力优秀;具备更精进的语言能力,理解、生成、逻辑、记忆能力全面提升,去幻觉、逻辑推理、代码能力显著提升。而文心大模型X1具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。
技术vs成本双杀背后,文心4.5和X1表现究竟如何?背后又有哪些“技术秘籍”?
一、实测文心4.5千般武艺:多模态能力最惊艳!
在DeepSeek毒打后,我对文心4.5的多模态能力十分期待:此前,DeepSeek哪里都好,但遗憾的是多模态能力实在太弱,深度理解图片都费劲,更别提看音视频了,导致和DeepSeek沟通时只能采取最“原始”的文字交流方式,常常给我一种“5G内容,2G形式”既视感,每次使用都意犹未尽。
因此,此次我们在图片理解、视频分析等场景对文心4.5重点展开测评:
首先,再牛的AI也得经得住抽象网友的毒打,几个梗图下来,文心4.5分分钟秒懂化身开了八倍镜的鉴梗大师,细节捕捉与推理深度在线,点出梗图的巧妙和幽默。
外行看热闹,内行看门道,能读懂梗图背后,要求大模型有很强的综合能力:要精准识别流行文化符号,构建文化共识库;要具备跨次元关联力,才能看懂跨时空混搭梗,这要求模型构建起“古典-现代”知识图谱,实现符号的时空穿越式理解;同时,也要构建起反讽与双关语“解码器”,将黑话转化为直白逻辑,建立情绪强度坐标系……
然后,上几道图片内容判断题:上传景点实拍、电影截图喂给文心4.5,其分分钟指出意义、⽤途是什么、位置在哪里等关键因素,福尔摩斯·文心4.5上线!
在接下来音视频判断题环节,文心4.5也毫不逊色:上传音频,文心4.5分分钟听歌识曲,网易云哭晕在厕所。