当前位置：首页 » 资讯 » 新科技 » 正文

七款AI大模型“高考成绩”公布：前三名文科过一本，理科过二本

IP属地北京 编辑：郑浩 IT之家 时间：2024-07-18 15:14:20

7 月 18 日消息，上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果，据大模型开源开放评测体系“司南”相关负责人介绍，“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’，目的是评测当前大模型的真实水平，找准问题，持续推进技术进步。”
测试结果显示，书生・浦语 2.0 系列文曲星大模型（浦语文曲星）、阿里通义千问大模型 Qwen2-72B以及 GPT-4o再次包揽文、理科前三甲；前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线（以今年高考人数最多的河南省的分数线为参考）。
从官方提供的图片来看，此次参与“高考”的大模型还包括来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的 GLM-4-9B 和法国 AI 初创公司 Mistral 旗下的 Mixtral 8×22B。
据介绍，此次评测具备如下特征：
全卷考试：进行全卷评分，而不只针对单一题型，且包括带图的高考题考前开源：评测覆盖的开源模型均为今年高考前开源的模型，排除泄题的可能性老师打分：邀请有高考阅卷经验的老师打分，确保评分和高考尽量一致完全公开：生成答案的代码、模型答卷、评分结果完全开源
在增加综合科目的基础上，Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模型 Qwen2-72B 以 546 分的成绩荣获 AI 高考“文科状元”，浦语文曲星则以 468.5 分成为理科第一名，分别超过了“非开源国际插班生”GPT-4o（文科 531 分，理科 467 分）。同为国外机构发布的 Mixtral 8x22B 平均得分最少，弱于国内大模型的高考表现。
阅卷老师们一致认为，大模型与真人考生仍存在差距，虽然对于基础知识的掌握表现出色，但在逻辑推理和知识灵活应用方面，大模型仍然差强人意。具体而言，在作答主观题时，大模型往往无法完整理解题干，不明白代词指向，结果导致答非所问；解答数学题时，解题过程机械且逻辑性差，对于几何题，常出现与空间逻辑相违背的推断；对物理、化学实验理解肤浅，无法准确识别并运用实验器材。
此外，大模型也会伪造虚构内容，编造看似合理但实际不存在的诗句，或在存在明显计算错误的情况下之后不反思，“硬着头皮蒙”一个答案，均给阅卷老师带来了困扰。
据此前报道，根据上海人工智能实验室上个月公布的 AI 高考全卷结果，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。
公开评测细节：点此前往

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

2025年，假期增加助力电影市场大盘

Q3中国智能盒子线上销量份额排名：小米第三华为第五

苹果首次在 2024 款 M4 MacBook Pro 中采用量子点显示技术

腾讯总裁刘炽平回应游戏部门调整：恢复活力和创造力

宇瞻推出 NOX RGB DDR5 电竞内存条，至高 8000MT/s

苹果Apple Arcade年底新增《最终幻想》《圣剑传说》系列经典作品

利用“七天无理由退货”骗取退款 13 万余元，一女子获刑

4399 豪掷 6 亿元广州买地，靠小游戏拿下未来总部

“风云地球”谱系正式发布

小米汽车能跳舞、原地起跳有什么意义：展示全主动悬架实力

雷军展示的小米SU7“车位到车位”智驾明天开测：12月底先锋版推送

我国专家回应6G到底离我们有多远：明年启动技术标准研究

陶瓷黑金小折叠！三星W25 Flip今日首销：9999元

净利润大涨48%！联想第二财季营收178.5亿美元：PC以外业务占近46%

智能盒子市场要洗牌：腾讯领跑华为强势入局

联想集团第三季营收179亿美元：同比增24% 期内利润3.8亿美元

停更三年，李子柒赚了多少钱？

《再见爱人4》能带动芒果TV的广告营收吗？

Visa 配合欧盟反垄断调查，零售商费用成焦点

OpenAI 回应 AI 在教育界争议：12 种方法让学生合理使用 ChatGPT

14日短剧热度榜：《打脸偷玩蛊虫的假苗疆圣女》连续排名第一，大盘热度5794万

霸榜双11！GEMO金茉连续两年高端美容仪销售TOP1

高瓴HHLR披露三季度美股持仓：增持阿里减持拼多多

周鸿祎称想成功要学会吹牛否则你可能连机会都拿不到

网易年度大作！《燕云十六声》12月底上线PC 手游略晚发布

小马智行冲刺纳斯达克：最高募资3.78亿美元北汽与广汽加持

AI大模型升级放缓、马斯克“鲶鱼效应”、OpenAI的焦虑，数据中心狂潮会继续吗？

全站最新

2025年，假期增加助力电影市场大盘

Q3中国智能盒子线上销量份额排名：小米第三华为第五

苹果首次在 2024 款 M4 MacBook Pro 中采用量子点显示技术

腾讯总裁刘炽平回应游戏部门调整：恢复活力和创造力

宇瞻推出 NOX RGB DDR5 电竞内存条，至高 8000MT/s

苹果Apple Arcade年底新增《最终幻想》《圣剑传说》系列经典作品

利用“七天无理由退货”骗取退款 13 万余元，一女子获刑

4399 豪掷 6 亿元广州买地，靠小游戏拿下未来总部

热门推荐

2025年，假期增加助力电影市场大盘

Q3中国智能盒子线上销量份额排名：小米第三华为第五

苹果首次在 2024 款 M4 MacBook Pro 中采用量子点显示技术

腾讯总裁刘炽平回应游戏部门调整：恢复活力和创造力

宇瞻推出 NOX RGB DDR5 电竞内存条，至高 8000MT/s

苹果Apple Arcade年底新增《最终幻想》《圣剑传说》系列经典作品

利用“七天无理由退货”骗取退款 13 万余元，一女子获刑

4399 豪掷 6 亿元广州买地，靠小游戏拿下未来总部

“风云地球”谱系正式发布

小米汽车能跳舞、原地起跳有什么意义：展示全主动悬架实力

雷军展示的小米SU7“车位到车位”智驾明天开测：12月底先锋版推送

我国专家回应6G到底离我们有多远：明年启动技术标准研究

陶瓷黑金小折叠！三星W25 Flip今日首销：9999元

净利润大涨48%！联想第二财季营收178.5亿美元：PC以外业务占近46%

智能盒子市场要洗牌：腾讯领跑华为强势入局