当前位置: 首页 » 资讯 » 新科技 » 正文

Nature新研究:大模型越大,越爱胡说八道

IP属地 北京 编辑:王婷 智东西 时间:2024-09-29 22:03:13

编译 | 徐豫

编辑 | 心缘

9月29日消息,国际顶尖科学学术期刊Nature(自然)9月25日刊登了一篇有关AI大模型“脑雾”现象的研究。一个来自西班牙的研究团队发现,几个参数量更大、版本更新的AI大模型,误答比例超60%。

其研究对象包括美国AI大模型独角兽OpenAI的GPT大模型、美国元宇宙巨头meta的Llama大模型,以及由美国明星AI创企Hugging Face参与创立的AI研究组织BigScience,推出的BLOOM大模型。

“脑雾”通常用来描述一种大脑功能下降的状态,可能导致人们短暂出现一些认知功能障碍。在AI界,“脑雾”二字用来类比AI系统在处理某些任务时,会间歇性地失灵,使得生成结果准确性和响应效率都低于正常水平。

这3家主流人工智能(AI)大模型的产品不断升级迭代。据研究数据显示,经过优化后的AI大模型虽然基本上做到有问必答,但遇到超纲的问题时会错答、乱答,而不是像以前那样逃避回答。这大幅削弱了AI大模型的可信度。

与此同时,该研究还发现用户难以分辨这些AI回答的真实性,可能会错信AI聊天机器人的说法,以至于被混淆视听。

这项研究的论文标题为参数量更大且学习能力更强的大语言模型的可靠性降低(Larger and more instructable language models become less reliable),作者包括Lexin Zhou,Wout Schellaert,Fernando Martínez-Plumed,Yael Moros-Daval,Cèsar Ferri和José Hernández-Orallo。

论文地址:https://www.nature.com/articles/d41586-024-03137-3

一、GPT-4等AI大模型,升级后“脑雾”却更严重了

José Hernández-Orallo是一位AI行业的资深人士,也是这篇论文的作者之一。据他介绍,该研究团队选择了3个有代表性的AI大模型作为研究对象,分别是OpenAI的GPT,meta的Llama,以及由美国AI研究组织BigScience研发的开源模型BLOOM。研究范围包括这些AI大模型的早期原始版本和经过优化的版本。

研究人员对这些AI大模型开展了数千次测试。其测试内容涵盖算术、字谜、地理和科学等领域的问题。同时,他们还设置了诸如“将列表内容按字母顺序排列”的任务,以评估AI大模型的信息转化能力。

除此之外,他们还参考人们的主观感受来区分提问难度。例如,人们普遍认为,一些有关加拿大多伦多的问题,比一些有关墨西哥的冷门小镇Akil的问题更简单易答。

从测试结果可以得知,AI大模型的参数量越大、版本越新,其回答的准确度越高,但随着问题难度逐步增加,其回答的准确度有所下降。这大致与研究人员的预期相符。

然而,研究人员发现这些主流的AI聊天机器人即使经过优化,遇到无法回答的问题时还是会倾向于生成错误答案,而不是直接承认不清楚、不知道。

在面对非常难的问题时,AI大模型选择不回答可能是一个明智之举。不过,研究人员在测试的AI大模型中,并未发现明显的回避提问的趋势。相反地,GPT-4等AI大模型几乎回答了所有提问。

事实上,这些经过优化的AI大模型版本,反而误答的情况更严重。在所有误答和不答的情况中,几个经过微调的版本给出错误答案的比例甚至超过了60%。

与此同时,研究人员还发现AI大模型面对简单的提问,有时也会出现“脑雾”现象。这也意味着,用户使用这些AI大模型时不存在所谓的“安全操作范围”,无法确保AI给出的答案是对的。

二、可能有10%到40%的用户,听信了AI大模型生成的错误言论

除了AI大模型本身“犯迷糊”,该研究还发现,人们通常也难以发现AI回答中的错误。

为了测试人们是否能自己发现AI的“脑雾”行为,研究人员让人们随机判断这些回答是正确的、错误的、还是逃避回答。

然而事实上,无论这些问题的难度如何,人们经常误判,将不准确的答案当作正确答案。测试结果显示,人们误判的频率大约介于10%到40%。

Hernández-Orallo称:“人类自身无法有效监督这些AI大模型的演化。”他认为,用户日常可能会过分高估和信任AI聊天机器人的能力,而这会带来危险的后果。

三、人为划定AI大模型的作答范围,超纲一律答“不知道”

Hernández-Orallo提议,AI开发者应着重提升AI大模型在处理简单问题时的整体表现,并且引导AI聊天机器人拒绝回答一些较为困难的问题,从而让用户更容易判断,在哪些情况下AI助手是值得信赖的。人们要懂得在哪个范围内适合使用AI,而在哪个范围内AI助手难以胜任工作。

他进一步解释道,虽然训练AI聊天机器人处理复杂问题的能力,不仅表面上令人印象深刻,还能在排行榜上有不错的竞争力,但有时并不管用。

OpenAI最新的o1大模型给他留下了深刻的印象。但他发现,尽管该模型可以执行两个非常大的数字的乘法运算指令,但是它给出了一个错误的答案。

在Hernández-Orallo看来,这个问题可以通过设定一个阈值上线来解决,当AI聊天机器人遇到超出这个阈值的复杂问题,直接回复“我不知道”就好。

四、AI大模型越来越擅长不懂装懂,会用观点而非事实作答

AI大语言模型(LLM)在回答问题时会犯错,或者出现“脑雾”的情况,已经引起了很多人的注意。

来自西班牙瓦伦西亚AI研究所的Hernández-Orallo及其同事共同研究了,AI大模型不断迭代优化后,其“脑雾”现象是如何随之变化的。

这里AI大模型的优化包括更大的参数量或决策节点、使用了更多的训练数据、消耗了更多的算力等情况。该研究团队还跟踪分析了AI大模型出现“脑雾”的频率高低,是否与人们所认为的问题难度相匹配,以及是否与人们发现AI回答错误的频率相对应。

该研究团队发现,采用强化学习等方式人为微调后的AI大模型版本,其生成答案的准确度整体上有所提高。但似乎不能高兴得太早,这些AI大模型的错误率也在同步增加。

研究发现一些原本AI大模型选择“逃避回答”的问题,过去会用“我不知道”或者转移话题来解决,但现在更多是通过给出一个错误答案来应付。这使得这些AI大模型出现“脑雾”情况的比例增加,反而变得更加不可靠。

Hernández-Orallo称:“现在这些AI大模型基本上有问必答,这意味着生成更多正确答案的同时,错误答案却也更多了。”换句话说,当聊天的话题超出了一个AI聊天机器人现有的知识储备,它输出观点的倾向比过去更明显。

在英国格拉斯哥大学(the University of Glasgow)攻读科学与技术专业的哲学家Mike Hicks,将这种“脑雾”现象称为“胡扯”,即这些AI大模型越来越擅长不懂装懂。

结语:针对专业领域微调的AI聊天机器人,其“脑雾”频率有效降低

现在已有部分AI大模型采取了与设定阈值类似的方法。它们遇到超出知识范围的问题后,会回答“我不知道”,或者“我没有足够的信息来解答这个问题”。

哥伦比亚南卡罗来纳大学(the University of South Carolina)的计算机科学家Vipula Rawte称,基本上所有AI开发者都致力于减少AI大模型的“脑雾”现象,有时还会特意优化这一点。包括医学用途在内,一些针对专业领域设计的AI聊天机器人,其回答机制通常更严谨,以免它们乱答超纲问题。

然而,Vipula Rawte也补充说,如果AI开发者想要销售通用的AI聊天机器人,那么这种更保守的回答机制,一般情况下不是他们会选择的卖点。

Nature

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新