当前位置：首页 » 资讯 » 新科技 » 正文

苹果研究人员质疑 AI 的推理能力：简单数学问题稍作改动就会答错

IP属地北京 编辑：周伟砍柴网 时间：2024-10-12 10:30:50

10 月 12 日消息，近年来，人工智能（AI）在各个领域取得了显著的进展，其中大型语言模型（LLM）能够生成人类水平的文本，甚至在某些任务上超越人类的表现。然而，研究人员对 LLM 的推理能力提出了质疑，他们发现这些模型在解决简单的数学问题时，只要稍加改动，就会犯错误，这表明它们可能并不具备真正的逻辑推理能力。
图源 Pexels
周四，苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文，揭示 LLM 在解决数学问题时容易受到干扰。IT之家注意到，研究人员通过对数学问题的微小改动，例如添加无关的信息，来测试 LLM 的推理能力。结果发现，这些模型在面对这样的变化时，其表现急剧下降。
例如，当研究人员给出一个简单的数学问题：“奥利弗星期五摘了 44 个奇异果，星期六摘了 58 个奇异果。星期日，他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果？”时，LLM 能够正确地计算出答案。然而，当研究人员添加一个无关的细节，“星期日，他摘的奇异果是星期五的两倍，其中 5 个比平均小。”时，LLM 的回答却出现了错误。例如，GPT-o1-mini 的回答是：“... 星期日，其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们：88（星期日的奇异果） - 5（较小的奇异果） = 83 个奇异果。”
上面只是一个简单的例子，研究人员修改了数百个问题，几乎所有问题都导致模型的回答成功率大幅下降。
研究人员认为，这种现象表明 LLM 并没有真正理解数学问题，而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”，例如是否计算小的奇异果，它们就会产生奇怪的、不合常理的结果。
这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色，但其推理能力仍然存在局限性。未来，研究人员需要进一步探索如何提高 LLM 的推理能力，使其能够更好地理解和解决复杂的问题。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

又一公司，终止重大资产重组！

钟睒睒的“愤怒”，谁能消解？

成立十年，没有爆款，AI是否Rokid AR眼镜的杀手锏？

《英雄联盟：双城之战》第二季今天完结：臻彩4K限时免费看

AI投毒第一案！GPT写的代码竟有后门程序员被骗1.8万元

樊振东携REDMI K80海报霸气亮相！雷军：当红不让

小米SU7成绩超乎很多人想象这三大原因至关重要

小米驾驶培训来了雷军：小米SU7 Ultra小订车主专属课程

一家中国团队在中东做语聊，不到半年收入接近600万美金，投放形式很“中国”

小鹏的今天，会是蔚来的明天吗？

小米汽车精英驾驶正在筹办，SU7 Ultra准车主预计12月进“驾校”

微软公布 Zero Day Quest 白帽安全竞赛

REDMI Watch 5超大屏惊艳亮相网友直呼小米手环9买早了

周鸿祎谈中国首富“看不起直播带货的企业家”：赞同，我们都应该向雷军学习！

新疆将首次开行贯通南疆东疆“复兴号”动车，单程运行距离 729km

消息称三星 Galaxy Z Flip FE 手机将搭载 Exynos 2400e

从乌镇携手出发，迈进更加美好的“数字未来”——来自2024年世界互联网大会乌镇峰会的观察

鸿蒙生态大会2024行业场景创新分论坛在深圳成功召开

微信PC版，迎来史诗级更新

被遗忘多年后，我也没想到小屏手机还能逆袭...

赵明回应荣耀 GT 系列独立，或将肩负再造荣耀目标

热衷“吃谷”的二次元，又奔向了IP主题餐厅

新一代擎天柱！米家空调Pro新品官宣：更大更广更远

索尼助力珠海航展，创新影像科技科技创新点亮航空盛会

L级HYBRID远摄变焦佳能RF70-200mm F2.8 L IS USM Z外观图赏

第五届“华为影像·金鸡手机电影计划”荣誉作品揭晓，见证移动影像共创之力

首发星穹柔光砂玻璃努比亚Z70 Ultra香珀配色图赏

全站最新

又一公司，终止重大资产重组！

钟睒睒的“愤怒”，谁能消解？

成立十年，没有爆款，AI是否Rokid AR眼镜的杀手锏？

《英雄联盟：双城之战》第二季今天完结：臻彩4K限时免费看

AI投毒第一案！GPT写的代码竟有后门程序员被骗1.8万元

樊振东携REDMI K80海报霸气亮相！雷军：当红不让

小米SU7成绩超乎很多人想象这三大原因至关重要

小米驾驶培训来了雷军：小米SU7 Ultra小订车主专属课程

热门推荐

又一公司，终止重大资产重组！

钟睒睒的“愤怒”，谁能消解？

成立十年，没有爆款，AI是否Rokid AR眼镜的杀手锏？

《英雄联盟：双城之战》第二季今天完结：臻彩4K限时免费看

AI投毒第一案！GPT写的代码竟有后门程序员被骗1.8万元

樊振东携REDMI K80海报霸气亮相！雷军：当红不让

小米SU7成绩超乎很多人想象这三大原因至关重要

小米驾驶培训来了雷军：小米SU7 Ultra小订车主专属课程

一家中国团队在中东做语聊，不到半年收入接近600万美金，投放形式很“中国”

小鹏的今天，会是蔚来的明天吗？

小米汽车精英驾驶正在筹办，SU7 Ultra准车主预计12月进“驾校”

微软公布 Zero Day Quest 白帽安全竞赛

REDMI Watch 5超大屏惊艳亮相网友直呼小米手环9买早了

周鸿祎谈中国首富“看不起直播带货的企业家”：赞同，我们都应该向雷军学习！

新疆将首次开行贯通南疆东疆“复兴号”动车，单程运行距离 729km