当前位置：首页 » 资讯 » 新科技 » 正文

苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理

IP属地北京 编辑：赵磊快科技 时间：2024-10-13 14:36:16

10月13日消息，近日，苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文，揭示了大型语言模型（LLM）在数学推理方面的显著局限性。
尽管这些模型在生成人类水平的文本方面表现出色，但当处理简单的数学问题时，即使问题仅进行了微小的改动，如添加无关信息，模型的表现也会急剧下降。
在论文中，研究人员通过一个简单的数学问题证明了这一点。
他们提出了一个关于采摘猕猴桃的问题：奥利弗在周五挑选了 44 个猕猴桃，然后他在周六挑选 58 个猕猴桃，周日，他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃？
此时，LLM能够正确地计算出答案。
但是，一旦问题中加入了无关的细节，如“其中5个奇异果比平均小”，模型便给出了错误的答案。
研究人员进一步对数百个类似的问题进行了修改，发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。
这一发现表明，LLM并未真正理解数学问题，而是更多地依赖于训练数据中的模式进行预测。
当需要进行真正的逻辑推理时，这些模型往往无法产生合理的结果，这一发现对人工智能的发展提供了重要的参考。
虽然LLM在许多领域表现优异，但其推理能力仍有待改进。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为显示器“XSN-27HBZ”通过 3C 认证，消息称新品报价 1359 元

格科微：5000 万像素图像传感器产品实现量产出货

博世推出 FU7 智能门锁：3D 人脸识别、双电池设计，1698 元

OPPO K12 Plus 手机首发搜狗输入法“极速模式”

医疗诊断系统开发商CeriBell上市：募资1.8亿美元首日大涨47%

国庆后一周12城密集出台公积金新政，购房成本再降

盈利资产接连摆上货架，交易标的净资产缩水7成，集友股份资产腾挪迷雾重重

Switch 2与PS5 Pro哪个更好？听听日本人的看法

汕头超声通过创业板注册：年营收3.27亿拟募资3.1亿

晶科电子获IPO备案：年营收18.6亿肖国伟控制47%股权

《黑神话：悟空》制作人冯骥：游戏存在风险和黑暗面

《黑神话：悟空》火焰山第五章剧情受挫玩家希望打牛魔王BOSS

《第一后裔》终极弗雷娜皮肤即将上线！24小时在线玩家峰值31407人

苹果被指限制员工社交软件使用：回应来了

《黑神话：悟空》沙雕动画火爆网络还原游戏中的幽默元素

众点关注 | 国庆假期结束 “银发族”错峰出游迎高峰

云鲸 J5 扫拖机器人一体机上架：15000Pa 吸力，3499 元起

中国移动推出“灵犀”家庭智能体，支持智能搜索、对话交互等功能

“偷感”年轻人，竟在零食店实现“社交自由”

我们用GLM-4-Plus搞了个“阅读智能体”，工作效率提升了300%

舍得“舍了”营销，业绩能否得以好转？

盒马不守规矩，喊出1000亿目标的严筱磊出师不利？

诺奖花落AI领军者：产业AI变革时代来了？

中邮证券：预计增量财政资金规模不低于5万亿，年内赤字率或有所调整

中信建投黄文涛：本次债务置换有望大幅缓解部分地方财政收缩倾向

曝RTX 5080综合效能不及RTX 4090！特供5080D要无

Meta高层调整硬件计划工程验证阶段产品就没了

全站最新

华为显示器“XSN-27HBZ”通过 3C 认证，消息称新品报价 1359 元

格科微：5000 万像素图像传感器产品实现量产出货

博世推出 FU7 智能门锁：3D 人脸识别、双电池设计，1698 元

OPPO K12 Plus 手机首发搜狗输入法“极速模式”

淘宝平台事业部总裁处端：松绑仅退款治理行业三大顽疾

医疗诊断系统开发商CeriBell上市：募资1.8亿美元首日大涨47%

“年度最值得期待彗星”进入观测最佳时间段！这么拍最出片→

国庆后一周12城密集出台公积金新政，购房成本再降

热门推荐

华为显示器“XSN-27HBZ”通过 3C 认证，消息称新品报价 1359 元

格科微：5000 万像素图像传感器产品实现量产出货

博世推出 FU7 智能门锁：3D 人脸识别、双电池设计，1698 元

OPPO K12 Plus 手机首发搜狗输入法“极速模式”

医疗诊断系统开发商CeriBell上市：募资1.8亿美元首日大涨47%

永辉超市：公司向上国仲提起仲裁申请，涉案金额38.59亿元

通用大模型评测标准发布

国庆后一周12城密集出台公积金新政，购房成本再降

盈利资产接连摆上货架，交易标的净资产缩水7成，集友股份资产腾挪迷雾重重

Switch 2与PS5 Pro哪个更好？听听日本人的看法

汕头超声通过创业板注册：年营收3.27亿拟募资3.1亿

晶科电子获IPO备案：年营收18.6亿肖国伟控制47%股权

跟风重制能行吗近期大热的吃鸡游戏让厂商开始跟风重制老游戏

《怪物猎人：荒野》新破解玩法公布：爆桶攻击！

《黑神话：悟空》制作人冯骥：游戏存在风险和黑暗面