当前位置：首页 » 资讯 » 新科技 » 正文

刚刚！字节跳动豆包上线图片理解，大模型走向多模态｜钛媒体AGI

IP属地北京 编辑：陆辰风钛媒体APP 时间：2024-12-04 08:00:26

（图片林志佳拍摄）
国内活跃度最高的AI大模型应用正走向“多元化”。
12月3日消息，钛媒体AGI获悉，字节跳动豆包日前上线了一项实用功能——图片理解。目前，豆包APP及豆包PC新增照片及相机按钮，上传图片后可识别图片内容。
相比普通的OCR识别（光学字符识别）技术，豆包的“图片理解”并非识别文字，而是识别图片信息。比如，问一个景点在哪里，问动漫人物是谁，豆包都能流畅进行回答。
再比如，早前，马斯克创立的人工智能公司xAI宣布为Grok增加了图像理解功能，而马斯克本人也出来官宣了，并发布以下图片，称“Grok现在能够理解图像了，甚至还可以解释笑话”。

这是一幅四格漫画，内容是一个关于物理学家和牛顿的笑话。把这个四格漫画发给豆包，也能看到它对这个笑话的解析。

1. 第一格：文字：“HOW DO WE KNOW IF THEY'RE ACTUALLY DEAD OR JUST PRETENDING”（我们怎么知道他们是真的死了还是只是假装？）图像：两个人站在战场上，周围有许多倒地的士兵。

2. 第二格：文字：“PHYSICISTS”（物理学家），图像：两个人开始观察和思考。

3. 第三格：文字：“Discovered”（发现了），图像：两个人似乎有了某种发现，表情变得兴奋。

4. 第四格：文字：“Isaac Newton invented gravity”（艾萨克·牛顿发明了重力），图像：两个人得出结论，表情满意。

笑话解析：这个笑话讽刺了物理学家有时会提出一些看似荒谬但却基于科学理论的解释。漫画中的两个人在战场上看到士兵倒地，他们没有考虑士兵是死是活，而是思考这背后的科学原理。最后，他们得出结论是牛顿发明了重力，暗示士兵是因为重力而倒地。这种思维方式幽默地表现了物理学家对科学原理的执着和有时不切实际的思考方式。
你认为，上述这个解析结果怎么样？符合事实吗？
事实上，随着AI大模型狂飙两年，企业越来越多瞄向更实用的落地场景，“图片理解”就是其中一项，它可以解决一些搜索、查找评估、文本写作等场景的需求，这使得大模型更加贴近实用场景需求。
QuestMobile最新数据显示，2024年10月，AI原生应用行业月活跃用户规模达到8976万，同比增长373.0%。用于情感陪伴、职场办公、趣味休闲、文案写作、教育学习、生活助手、图像生成、行业顾问等场景中。
公开资料显示，字节跳动的豆包App已经成为中国日活用户最高的AI大模型产品。
同时，截止到2024年10月，在网页端访问量方面，Kimi智能助手、文心一言、豆包、通义千问分别达到2863万、2111万、1688万、1012万；在移动端AI原生应用方面，行业月活规模总数达到8976万，同比增长373%，其中，豆包、Kimi智能助手、文小言月活跃用户分别为4839万、1650万、1179万。
随着AI浪潮的兴起，各大厂商都在积极探索与AI大模型融合发展的新契机，AI有望引领全球新一轮科技创新周期，从而促使效率进一步增长。
据Statista数据显示，预计到2030年，全球AI领域规模将超过1.8万亿美元。
（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

最新！这家A股公司，1元受让一企业100%股权！4个月前曾转型布局半导体

突发！日股飙升，韩股跳水！比特币暴涨，超16万人爆仓！

朱啸虎公开回应月之暗面纠纷：张予彤隐瞒巨大利益被开解雇

首个央企全自研 AI 视频生成模型发布，预计2032年全球“类Sora”规模将超180亿

钟睒睒谈绝不直播带货，为何周鸿祎凑上去回应？谁在玩流量？

三星One UI 7测试版或今日发布三款手机率先升级

分析师称苹果Home Hub或2025年底发布自带屏幕

库克谈何时退休：会一直工作下去直到该停下来的时候

谷歌领跑 AI 视频生成赛道：抢先 OpenAI Sora，推出 Veo 模型

微软支持文档遭质疑：仍推荐 Win10/11 用户使用15年前的备份工具

宝宝树回应被取消上市地位：尊重港交所规则，这是艰难的选择

华为智慧屏11月出货量暴增30% 已站稳第二阵营

《声生不息·大湾区季》，情怀拉满之后呢？

库克为苹果Vision Pro销售表现辩护：这是一款“早期采用者产品”

空客将在国防和航天部门裁员超 2000 人，以应对卫星市场竞争

阿尔特曼：ChatGPT AI 聊天机器人周活跃用户超 3 亿

OpenAI 将进行 12 场直播：一大堆东西要发布

通用汽车拟斥资逾50亿美元重组中国业务，关厂、减产试图挽回辉煌

用户在旧电脑上成功安装微软 Win11 24H2，有 TPM 2.0 即可

英特尔CEO帕特·基辛格突然退休：将获得1200万美元的离职金

排名第一！华为Mate 70 Pro+获中国电信大众直连卫星手机五星评价

8.5mm塞进7000mAh泰坦电池！真我Neo7证件照出炉

独家高亮钛玄武架构！华为Mate 70 RS拆解难坏老师傅：太难拆了

何刚亲自交付：十年Mate老用户抢到全国第一台Mate 70系列

真没有旗舰！AMD官方实锤RX 8800、RX 8600系列

Intel锐炫B580升级三个DP 2.1接口：只有一个支持UHBR 13.5

小菜园通过上市聆讯：8个月净利4亿，刚派息2亿，已通过IPO备案

全站最新

最新！这家A股公司，1元受让一企业100%股权！4个月前曾转型布局半导体

突发！日股飙升，韩股跳水！比特币暴涨，超16万人爆仓！

朱啸虎公开回应月之暗面纠纷：张予彤隐瞒巨大利益被开解雇

首个央企全自研 AI 视频生成模型发布，预计2032年全球“类Sora”规模将超180亿

钟睒睒谈绝不直播带货，为何周鸿祎凑上去回应？谁在玩流量？

三星One UI 7测试版或今日发布三款手机率先升级

分析师称苹果Home Hub或2025年底发布自带屏幕

库克谈何时退休：会一直工作下去直到该停下来的时候

热门推荐

最新！这家A股公司，1元受让一企业100%股权！4个月前曾转型布局半导体

突发！日股飙升，韩股跳水！比特币暴涨，超16万人爆仓！

朱啸虎公开回应月之暗面纠纷：张予彤隐瞒巨大利益被开解雇

首个央企全自研 AI 视频生成模型发布，预计2032年全球“类Sora”规模将超180亿

钟睒睒谈绝不直播带货，为何周鸿祎凑上去回应？谁在玩流量？

三星One UI 7测试版或今日发布三款手机率先升级

分析师称苹果Home Hub或2025年底发布自带屏幕

库克谈何时退休：会一直工作下去直到该停下来的时候

谷歌领跑 AI 视频生成赛道：抢先 OpenAI Sora，推出 Veo 模型

微软支持文档遭质疑：仍推荐 Win10/11 用户使用15年前的备份工具

宝宝树回应被取消上市地位：尊重港交所规则，这是艰难的选择

华为智慧屏11月出货量暴增30% 已站稳第二阵营

《声生不息·大湾区季》，情怀拉满之后呢？

库克为苹果Vision Pro销售表现辩护：这是一款“早期采用者产品”

空客将在国防和航天部门裁员超 2000 人，以应对卫星市场竞争