当前位置：首页 » 资讯 » 新科技 » 正文

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

IP属地山东济南 编辑：大力头部财经 时间：2024-06-13 15:04:45

近日，复旦大学自然语言处理（NLP）实验室LLMeval团队公布了2024 年高考数学大模型评测结果。数据显示，字节豆包在2024高考数学新 II 卷客观题正确率达到74.66%，在13家大模型中排名首位，阿里千问和GPT-4o分列二三位。而在高考数学新 I 卷评测排名中，字节豆包也排在前列。
据悉，LLMeval是由复旦大学NLP实验室推出的大模型评测基准，专注于评估专业领域的知识能力。评测团队表示，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的“绝好评测集合”。因此，团队在高考后第一时间对13家大模型进行了评测。
评测选取2024高考数学新I卷和新II卷的14道客观题，参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型，数学能力是其发布会现场着重展现的能力模块。但结果显示，部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新 II 卷客观题测试中，字节豆包成绩排在首位，其次是阿里千问和GPT-4o。
今年5月，豆包大模型在火山引擎原动力大会上正式发布。相关数据显示，在MMLU、BBH、GSM8K、Humaneval等11个业界主流的公开评测集上，Doubao-pro-4k的总分为76.8分，优于同期测试的其他国产模型。在数学能力、语言理解能力，以及综合评测集CMMLU和Ceval的评测上，豆包也有不错的表现，得分排在前三。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Q3中国智能盒子线上销量份额排名：小米第三华为第五

苹果首次在 2024 款 M4 MacBook Pro 中采用量子点显示技术

腾讯总裁刘炽平回应游戏部门调整：恢复活力和创造力

宇瞻推出 NOX RGB DDR5 电竞内存条，至高 8000MT/s

苹果Apple Arcade年底新增《最终幻想》《圣剑传说》系列经典作品

利用“七天无理由退货”骗取退款 13 万余元，一女子获刑

4399 豪掷 6 亿元广州买地，靠小游戏拿下未来总部

“风云地球”谱系正式发布

小米汽车能跳舞、原地起跳有什么意义：展示全主动悬架实力

雷军展示的小米SU7“车位到车位”智驾明天开测：12月底先锋版推送

我国专家回应6G到底离我们有多远：明年启动技术标准研究

陶瓷黑金小折叠！三星W25 Flip今日首销：9999元

净利润大涨48%！联想第二财季营收178.5亿美元：PC以外业务占近46%

智能盒子市场要洗牌：腾讯领跑华为强势入局

联想集团第三季营收179亿美元：同比增24% 期内利润3.8亿美元

停更三年，李子柒赚了多少钱？

《再见爱人4》能带动芒果TV的广告营收吗？

Visa 配合欧盟反垄断调查，零售商费用成焦点

OpenAI 回应 AI 在教育界争议：12 种方法让学生合理使用 ChatGPT

14日短剧热度榜：《打脸偷玩蛊虫的假苗疆圣女》连续排名第一，大盘热度5794万

霸榜双11！GEMO金茉连续两年高端美容仪销售TOP1

高瓴HHLR披露三季度美股持仓：增持阿里减持拼多多

周鸿祎称想成功要学会吹牛否则你可能连机会都拿不到

网易年度大作！《燕云十六声》12月底上线PC 手游略晚发布

小马智行冲刺纳斯达克：最高募资3.78亿美元北汽与广汽加持

AI大模型升级放缓、马斯克“鲶鱼效应”、OpenAI的焦虑，数据中心狂潮会继续吗？

联想集团第二财季营收178.5亿美元同比增长24%

全站最新

Q3中国智能盒子线上销量份额排名：小米第三华为第五

苹果首次在 2024 款 M4 MacBook Pro 中采用量子点显示技术

腾讯总裁刘炽平回应游戏部门调整：恢复活力和创造力

宇瞻推出 NOX RGB DDR5 电竞内存条，至高 8000MT/s

苹果Apple Arcade年底新增《最终幻想》《圣剑传说》系列经典作品

利用“七天无理由退货”骗取退款 13 万余元，一女子获刑

4399 豪掷 6 亿元广州买地，靠小游戏拿下未来总部

“风云地球”谱系正式发布

热门推荐

Q3中国智能盒子线上销量份额排名：小米第三华为第五

苹果首次在 2024 款 M4 MacBook Pro 中采用量子点显示技术

腾讯总裁刘炽平回应游戏部门调整：恢复活力和创造力

宇瞻推出 NOX RGB DDR5 电竞内存条，至高 8000MT/s

苹果Apple Arcade年底新增《最终幻想》《圣剑传说》系列经典作品

利用“七天无理由退货”骗取退款 13 万余元，一女子获刑

4399 豪掷 6 亿元广州买地，靠小游戏拿下未来总部

“风云地球”谱系正式发布

小米汽车能跳舞、原地起跳有什么意义：展示全主动悬架实力

雷军展示的小米SU7“车位到车位”智驾明天开测：12月底先锋版推送

我国专家回应6G到底离我们有多远：明年启动技术标准研究

陶瓷黑金小折叠！三星W25 Flip今日首销：9999元

净利润大涨48%！联想第二财季营收178.5亿美元：PC以外业务占近46%

智能盒子市场要洗牌：腾讯领跑华为强势入局

联想集团第三季营收179亿美元：同比增24% 期内利润3.8亿美元