当前位置：首页 » 资讯 » 新科技 » 正文

智源发布“百模”评测榜单：字节跳动居语言模型主观评测榜首，OpenAI o1仅居第三

IP属地北京 编辑：赵云飞搜狐科技 时间：2024-12-20 17:20:13

北京智源人工智能研究院副院长、总工程师林咏华
出品｜
作者｜郑松毅
12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。
本次评测依托于智源研究院于2023年6月上线的大模型评测平台Flageval，目前已覆盖全球800余个开闭源模型，超200万条评测题目。
以语言模型为例，主观评测重点考察模型中文能力，结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五。
发布会后，围绕AI大模型发展现状、未来趋势、及产业应用机会等问题，北京智源人工智能研究院副院长、总工程师林咏华，与等媒体围坐在一起聊了许久。
作为有着20年经验的AI行业“老兵”，林咏华从IBM中国研究院到投身于智源，她的研究重心仍是推崇开源生态，鼓励AI牌桌上的玩家从“竞争”转向“竞合”，共谋发展之道。
回头来看，从ChatGPT打响这场AI竞赛的“第一枪”算起，至今已有两年。
两年中，赛道上引领和紧跟的选手频繁换位，大语言模型也逐渐在向多模态大模型演进。从整个行业来看，当下目光所聚之处不再仅是关注技术突破，而是都在想办法做出“接地气”的AI应用。
在林咏华看来，“大语言模型经历两年的迭代已经进入成熟期。当下，或是说下一阶段的发展重点将是多模态大模型。在新一轮竞赛中，互联网大厂有流量和数据的明显优势。”
几日前，OpenAI前首席科学家伊尔亚公开发言称，“因数据资源受限，当前AI模型预训练方式即将走向终结。”
对此，林咏华持相反观点。她认为，“不是可用数据不够，而是还有很多‘数据孤岛’没有打破。Facebook、meta等平台的众多数据还没被看到，大量视频数据还没有被很好地运用。”
她判断，“2025年，构建能完成更复杂任务的AI Agent（智能体）将是热点方向。同时，会有更多基于文生图、文生视频的应用出现。”
以下为对话精编：
媒体：国内外的大模型评测榜单很多，排名情况参差不齐。您认为有必要统一一个评测标准吗？
林咏华：能统一当然是最好的，能省去很多重复性的工作。这也是包括智源在内努力的方向，但坦白说难度很大。
媒体：这类偏理论的评测结果，对产业应用指导意义大吗？
林咏华：出榜的核心意义，是在于想让所有人能看到模型的优势和不足。从机构的角度出发，是秉承严格、公正、专业的态度来评测。但出于一些局限性，的确不能断言榜单中的第一名就是最好的模型。
榜单的意义在于为用户提供参考价值，用户可以根据自家产品需求选择适合的模型使用。
媒体：从评测过程来看，有发现今年的大模型市场发生了怎样的变化吗？
林咏华：语言大模型的数量在减少，有越来越多的多模态大模型出现。
语言模型已经进入“深水区”，第一梯队的语言模型可以说已经做的很成熟了，想把水平再大幅度提高不容易。不是光拼参数和数据就能解决的，而是要依赖于更多深入创新。
反观多模态大模型，目前还处于基础能力提升阶段，有很大发展空间。此外，具身智能等新兴领域也依赖于多模态大模型，实现对物理世界的理解和推理能力。
到2025年，预计多模态大模型会层出不穷。
媒体：前几天，OpenAI前首席科学家伊尔亚提到，“因数据资源受限，现在的AI预训练方式即将走向终结”，您怎么看？
林咏华：我不同意这一观点。统计显示，Facebook、meta、推特上面的数据量是互联网上能公开搜索到的数据量的5至6倍，然而这里的很多数据还没被看到，“数据孤岛”问题还未解决。另外，还有大量的视频数据没有被很好地运用。
媒体：从发布的评测结果来看，豆包模型在几个榜单中的排名都比较靠前，是互联网大厂的模型研发能力在大幅提升吗？
林咏华：互联网大厂有两方面优势，流量和数据。
大模型需要有更多用户使用，才能起到“数据飞轮”的作用。大厂有流量，这是天然的优势。
另一方面，对文生图、文生视频来说，像字节、快手等大厂的优势在于数据。他们本身有短视频平台，积累了更多高质量数据。
媒体：在多模态大模型这一轮新竞赛中，相较于互联网大厂，像“AI六小虎”及其他初创企业的机会在哪？
林咏华：多模态模型有不同的训练方法，比如主流的是用语言基础模型加上视觉模型进行拼接。如何更好地完成拼接、预处理、后处理等工作，都是机会点。
现在来说，大多数模型训练都是基于现有模型，不需要完全从头开始，比的就是谁更有创新能力。
媒体：之前大家都在喊着追AGI（通用人工智能），而现在似乎都转头追向了应用。现在还有人在追求实现AGI吗？
林咏华：当前市场分为两派，大多数厂商觉得自家模型已经到达一定能力水平，需要尽快做出落地应用。有少部分的厂商和机构还在追求AGI的路上往前走。
坦白来说，追求AGI的成本很高，头部巨头厂商和机构做的比较多。当然，做应用尝试同样也很重要。现在更像是有分工地追求AGI。
媒体：今年很多企业在说做AI应用，但至今似乎还没有特别亮眼的产品出来。您对明年AI应用发展趋势的判断是什么？
林咏华：AI应用做的如何要看模型发展到了什么阶段。今年大多AI应用是以语言模型为基础，陆续开始发展更复杂的应用能力。
2025年，基于语言模型肯定会有更多AI Agent（智能体），能完成更复杂的任务，这是明年的热点。
另外，随着多模态模型的发展，2025年会出现更多基于文生图、文生视频的应用。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

日本三和推出插头可 360° 旋转的 USB-C 数据线

OPPO Find X8 系列手机哈苏水印上新

累计亏损近百亿元！观致汽车37.7亿股权被冻结三年

中银三星人寿安徽分公司及相关责任人被罚13万元，涉虚列费用等

《黑神话：悟空》入围三大奖项，2024 年 Steam 大奖开启投票

开放原子、Eclipse 基金会联合发布 EPL-2.0 许可证中译文

荣耀Magic7长焦下的港珠澳大桥，先锋影像定格超级工程

告别 8GB，消息称三星 Galaxy S25 系列手机 12GB RAM 起步

寂静岭2团队新作题材有了大转变

买游戏可抵扣金币！《黑神话：悟空》重大功能更新来袭！

世嘉推“SEGA新年大促”：《暗喻幻想》等多款游戏特惠中

韩国游戏《DISORDER》预计明年1月22日发行具备独特剧情及精美画面

三星电子组建“下一代产品”团队市场份额压力增大

移动办公利器！山业推出集成HDMI/USB-C双接口无线鼠标

联想新款Yoga笔记本电脑配置绝了

摩尔线程发布显卡驱动：性能提升超50%

国内3A大作《黑神话：悟空》入围Steam三项大奖

老千喜上眉头索尼新专利：能监测玩家情绪优化游戏

怪物猎人荒野新作技能改动有哪些 12月19日官方直播爆料全集结

小姐姐沉迷游戏cos白金等级奖杯墙赞《博德之门3》真好玩！

世界显示产业创新发展大会在成都召开，41项全球首发、行业首创产品集中亮相

还有惊喜？曝明年Xbox新作数量或超预期有望1月亮相

九州通也要开源节流，17亿转让资产再推REITs融资

小菜园登陆港交所募资8.6亿港元，经营利润率、同店销售额双双下滑

12月上半月手机激活量排名 iPhone 16 Pro Max第一

华为Mate 70系列《不负每一段轨迹》上新，携手那尔那茜讲述逐梦热爱故事

vivo X100 Pro 获 OriginOS 5 15.1.8.22 升级：优化相机变焦性能

全站最新

日本三和推出插头可 360° 旋转的 USB-C 数据线

OPPO Find X8 系列手机哈苏水印上新

累计亏损近百亿元！观致汽车37.7亿股权被冻结三年

中银三星人寿安徽分公司及相关责任人被罚13万元，涉虚列费用等

《黑神话：悟空》入围三大奖项，2024 年 Steam 大奖开启投票

开放原子、Eclipse 基金会联合发布 EPL-2.0 许可证中译文

荣耀Magic7长焦下的港珠澳大桥，先锋影像定格超级工程

告别 8GB，消息称三星 Galaxy S25 系列手机 12GB RAM 起步

热门推荐

日本三和推出插头可 360° 旋转的 USB-C 数据线

OPPO Find X8 系列手机哈苏水印上新

累计亏损近百亿元！观致汽车37.7亿股权被冻结三年

中银三星人寿安徽分公司及相关责任人被罚13万元，涉虚列费用等

《黑神话：悟空》入围三大奖项，2024 年 Steam 大奖开启投票

开放原子、Eclipse 基金会联合发布 EPL-2.0 许可证中译文

荣耀Magic7长焦下的港珠澳大桥，先锋影像定格超级工程

告别 8GB，消息称三星 Galaxy S25 系列手机 12GB RAM 起步

寂静岭2团队新作题材有了大转变

买游戏可抵扣金币！《黑神话：悟空》重大功能更新来袭！

世嘉推“SEGA新年大促”：《暗喻幻想》等多款游戏特惠中

韩国游戏《DISORDER》预计明年1月22日发行具备独特剧情及精美画面

三星电子组建“下一代产品”团队市场份额压力增大

移动办公利器！山业推出集成HDMI/USB-C双接口无线鼠标

联想新款Yoga笔记本电脑配置绝了