当前位置：首页 » 资讯 » 新科技 » 正文

研究发现：AI 越聪明就越有可能“胡编乱造”

IP属地北京 编辑：吴俊 IT之家 时间：2024-09-29 13:44:27

9 月 29 日消息，一项新研究发现，随着大型语言模型（LLM）变得越来越强大，它们似乎也越来越容易编造事实，而不是避免或拒绝回答它们无法回答的问题。这表明，这些更聪明的 AI 聊天机器人实际上变得不太可靠。
图源 Pexels
注意到，该研究发表在《自然》杂志上，研究人员研究了一些业界领先的商业 LLM：OpenAI 的 GPT 和 meta 的 LLaMA，以及由研究小组 BigScience 创建的开源模型 BLOOM。
研究发现，虽然这些 LLM 的回答在许多情况下变得更加准确，但总体上可靠性更差，给出错误答案的比例比旧模型更高。
瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示：“如今，它们几乎可以回答一切。这意味着更多正确的答案，但也意味着更多错误的答案。”
格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价，Hicks（未参与该研究）告诉《自然》杂志：“在我看来，这就像我们所说的胡说八道，它越来越擅长假装知识渊博。”
测试中，这些模型被问及了从数学到地理等各种主题，并被要求执行诸如按指定顺序列出信息等任务。总体而言，更大、更强大的模型给出了最准确的答案，但在更难的问题上表现不佳，其准确率较低。
研究人员称，一些最大的“撒谎者”是 OpenAI 的 GPT-4 和 o1，但所有被研究的 LLM 似乎都呈这种趋势，对于 LLaMA 系列模型，没有一个能够达到 60% 的准确率，即使是最简单的问题。
而当被要求判断聊天机器人的回答是准确还是不准确时，一小部分参与者有 10% 到 40% 的概率判断错误。
总之研究表明，AI 模型越大（就参数、训练数据和其他因素而言），它们给出错误答案的比例就越高。
研究人员称，解决这些问题最简单的方法是让 LLM 不那么急于回答一切。Hernández-Orallo 称：“可以设置一个阈值，当问题具有挑战性时，让聊天机器人说‘不，我不知道’。”但如果聊天机器人被限制为只回答它们知道的东西，可能会暴露技术的局限性。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

海底捞开出校园店：打对折的“学生专享价”，能“捞”出更多利润吗？

团购！秒杀！反向穿越！国庆小长假好戏都在这啦~

“中国电竞第一股”星竞威武与如家共建电竞酒店，业内：跨界合作是一种必然

2025年养老金会上涨吗？有三个积极信号出现，一起来看

12年来最闪耀光芒！属于白银的“黄金时代”正在开启？

近200股本周创年内新高，百亿大盘占比近七成，消费类ETF周涨幅居前

《脱友》需要捧出下一个「杨笠」

雷军点赞，国内前三

稀土重磅条例，即将施行

AMD X670E主板诡异Bug：PCIe5.0 SSD突然变PCIe1.0！死机无法启动

登陆苏州！信贷员获客新利器，东融APP破局出圈！

4天A股股民人均赚4.7万！股民有清醒认识：现在都还没回本，赚的4.7万其中5万是我的本

圆刚扩充 GO 产品线，推出 VERSATI go 麦克风和 FLEXI go 支架

联想推出拯救者游戏手柄 G7：专为 Y700 平板定制，499 元

中国气象局：全国建成 7.6 万余个地面自动气象观测站

共计33亿！蔚来中国获战略投资者新一轮增资

突发！宁德时代旗下生产基地着火官方回应：现场目前没有人员伤亡

联想集团副总裁陈振宽：AI 2.0时代，算力发展该如何破局？｜科技前线

9999 元联想最小笔记本主板，YOGA Air 15 Aura AI 元启版发布

联想拯救者新一代 Y700 平板发布：骁龙 8 Gen 3，2899 元起

十一出行全攻略！华为Pura 70系列教你省心出游

超便携专业AI大师本带来生产力跃升，联想ThinkPad P1 AI 2024 AI元启版上市

36 氪2024具身智能大会云迹科技“端到端”闭环服务方案再获认可

IDC发布《中国应用交付市场季度跟踪报告，2024Q2》，深信服AD稳居第一

英伟达RTX 50显卡进展：已收到厂商资料显存大幅升级

罗技发布首款专为Quest头显设计手写笔MX Ink

酷凛发布霜格620黑金版和霜格410黑金版散热器

全站最新

海底捞开出校园店：打对折的“学生专享价”，能“捞”出更多利润吗？

团购！秒杀！反向穿越！国庆小长假好戏都在这啦~

“中国电竞第一股”星竞威武与如家共建电竞酒店，业内：跨界合作是一种必然

全新比亚迪汉L谍照曝光：二代刀片电池加持，车身骨架焕然一新？

2025年养老金会上涨吗？有三个积极信号出现，一起来看

12年来最闪耀光芒！属于白银的“黄金时代”正在开启？

近200股本周创年内新高，百亿大盘占比近七成，消费类ETF周涨幅居前

万人千企大培训潍坊市商务局召开全市外贸企业大会

热门推荐

永辉超市部分胖东来特供商品断货属实，胖东来工作人员：仍处在供货周期

海底捞开出校园店：打对折的“学生专享价”，能“捞”出更多利润吗？

江苏选手在第47届世界技能大赛中创佳绩

团购！秒杀！反向穿越！国庆小长假好戏都在这啦~

“中国电竞第一股”星竞威武与如家共建电竞酒店，业内：跨界合作是一种必然

金山办公入选福布斯中国2024 ESG 50榜单，人工智能应用WPS AI获认可

2025年养老金会上涨吗？有三个积极信号出现，一起来看

12年来最闪耀光芒！属于白银的“黄金时代”正在开启？

近200股本周创年内新高，百亿大盘占比近七成，消费类ETF周涨幅居前

《脱友》需要捧出下一个「杨笠」

雷军点赞，国内前三

稀土重磅条例，即将施行

AMD X670E主板诡异Bug：PCIe5.0 SSD突然变PCIe1.0！死机无法启动

SpaceX暂停猎鹰 9 号火箭发射，二级离轨点火出现问题

登陆苏州！信贷员获客新利器，东融APP破局出圈！