当前位置：首页 » 资讯 » 新科技 » 正文

LLM 数学基准测试集 FrontierMath 公布：号称业界模型均败北

IP属地北京 编辑：刘敏 IT之家 时间：2024-11-15 20:02:20

11 月 15 日消息，研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集，旨在评估系列模型的数学推理能力。
与现有诸如 GSM-8K、MATH 等测试题集不同，FrontierMath 中的数学问题号称特别复杂，收录了现代数学中的数论、代数和几何等领域，这些题目的难度据称极高，甚至人类专家解答往往需要数小时甚至数天的时间。
获悉，FrontierMath 的题目由人工智能学方面资深专家设计，相应问题号称不仅要求 AI 理解数学概念，还需要具备复杂情境的推理能力，以避免模型利用以前学习过的类似题目进行比对作答。
▲ 题库中的题型举例
研究机构表示，他们利用 FrontierMath 对当前市场上的 AI 模型进行初步测试，发现这些模型普遍表现不佳，包括此前在 GSM-8K、MATH 上取得近乎满分成绩的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解题成功率也均败北（成功率低于 2%）。
研究团队指出，AI 在解决高级数学问题时的主要困难在于这些模型通常依赖于训练数据中学过的类似题目来生成答案，而不是对问题本身的逻辑结构进行真正的理解和推理。这意味着目前业界大部分 AI 模型只要遇到没学过的题目，就容易出错，而这一原则性的问题难以实际上无法通过“暴力增加模型规模”解决，需要研发人员从模型推理架构层面进行深入改造。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全大写，小米“Redmi 红米手机”公众号更名为“REDMI 红米手机”

Steam 国区 398 元起，游戏《乐高地平线大冒险》发售

万茜再加盟英雄联盟动画剧集《双城之战》第二季正式亮相

《真三国无双起源》孙坚和周瑜角色宣传片&截图公布

小米官方宣布：小米澎湃OS 2迎来新一批的升级

美媒曝光Steam存在大量极端主义和仇恨内容爱国者行动起来

为 Surface Phone 铺路：微软新专利展示折叠屏新机正面形态

富士胶片首款电影摄影机“FUJIFILM GFX ETERNA”研发计划公布

疯狂的美妆代言：三甲医院医生被明码标价，几十万打包使用头衔、照片

Meta 在美国洛杉矶开设首家雷朋智能穿戴快闪店

开源 5 年，openEuler 累计装机量突破 1000 万

有望为重返移动市场铺路，LG 新款小折叠手机专利在美获批

PS5 母子玩《霍格沃茨之遗》网友：这就幸福的一家三口了

《黑神话：悟空》火到国外：海外热度超越《最终幻想7重生》

3299元！优派新款27英寸显示器发布：4K 165Hz+QD-Mini LED

《剑星》制作人与《宇宙机器人》制作人同框了！网友：快制作新游戏吧

阿里公布2025财年二季度业绩报告营收同比增长29%

20亿美元！GTA6开发成本引热议

安克 Soundcore 声阔飞跃线 Air 开放式耳机开售，799 元

京东方：子公司等拟向北电集成增资 199.9 亿元

东兴证券副总张军因个人原因辞职，或被带走调查；曾任职于证监会发行监管部

阿里巴巴单季回购近400亿元！

美特斯邦威们撕下"步行街四大天王"标签，想借户外平替翻身

突发！A股龙头原董事长，被判刑8年，罚金1.5亿！公司最新回应！

内容营销的新范式：品牌如何借力TikTok头部达人拓展市场

腾讯重磅推出AI搜索ima：不只搜全网还打通微信公众号

音游《Beat Saber》新增 Monstercat Mixtape 2 DLC，14.99 美元

全站最新

全大写，小米“Redmi 红米手机”公众号更名为“REDMI 红米手机”

Steam 国区 398 元起，游戏《乐高地平线大冒险》发售

万茜再加盟英雄联盟动画剧集《双城之战》第二季正式亮相

定义时代科技风潮梅赛德斯-奔驰科技创新日的“王炸组合”

《真三国无双起源》孙坚和周瑜角色宣传片&截图公布

小米官方宣布：小米澎湃OS 2迎来新一批的升级

美媒曝光Steam存在大量极端主义和仇恨内容爱国者行动起来

为 Surface Phone 铺路：微软新专利展示折叠屏新机正面形态

热门推荐

全大写，小米“Redmi 红米手机”公众号更名为“REDMI 红米手机”

Steam 国区 398 元起，游戏《乐高地平线大冒险》发售

万茜再加盟英雄联盟动画剧集《双城之战》第二季正式亮相

《真三国无双起源》孙坚和周瑜角色宣传片&截图公布

小米官方宣布：小米澎湃OS 2迎来新一批的升级

美媒曝光Steam存在大量极端主义和仇恨内容爱国者行动起来

为 Surface Phone 铺路：微软新专利展示折叠屏新机正面形态

富士胶片首款电影摄影机“FUJIFILM GFX ETERNA”研发计划公布

疯狂的美妆代言：三甲医院医生被明码标价，几十万打包使用头衔、照片

Meta 在美国洛杉矶开设首家雷朋智能穿戴快闪店

开源 5 年，openEuler 累计装机量突破 1000 万

有望为重返移动市场铺路，LG 新款小折叠手机专利在美获批

PS5 母子玩《霍格沃茨之遗》网友：这就幸福的一家三口了

《黑神话：悟空》火到国外：海外热度超越《最终幻想7重生》

3299元！优派新款27英寸显示器发布：4K 165Hz+QD-Mini LED