当前位置：首页 » 资讯 » 新科技 » 正文

新研究：AI搜索工具平均准确率仅六成，且自信满满“不认错”

IP属地北京 编辑：钟景轩 IT之家 时间：2025-03-13 17:03:02

3 月 13 日消息，据外媒 Techspot 周二报道，哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期对八款 AI 搜索引擎展开研究，包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性，并记录了它们拒绝回答问题的频率。
研究人员从 20 家新闻机构中随机挑选了 200 篇报道（每家 10 篇），确保它们在谷歌搜索时能排在前三位，然后用相同的查询方式测试各 AI 搜索工具，并评估它们是否正确引用了文章内容、新闻机构名称和原始链接。
测试结果显示，除 Perplexity 及其付费版外，其余 AI 搜索引擎的表现都不尽如人意。整体来看，AI 搜索引擎提供的答案有 60% 是不准确的，而且 AI对错误答案的“自信”反而加剧了问题。
这项研究的重要性在于，它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错，还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息，甚至在被质疑时仍然试图自圆其说。
即使承认了错误，ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中，几乎是“无论如何都要给出答案”。研究数据支持了这一观点：ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具，但其“完全正确”率仅 28%，而“完全错误”率高达 57%。
ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪，其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中，有 104 次拒绝作答，剩下的 96 次中，仅 16 次“完全正确”，14 次“部分正确”，66 次“完全错误”，总体错误率接近 70%。
这些 AI 工具的开发公司并未公开承认这些问题，却仍向用户收取每月 20 至 200 美元（备注：当前约 145 至 1449 元人民币）的订阅费。此外，付费版 Perplexity Pro（20 美元 / 月）和 Grok-3 Search（40 美元 / 月）比免费版回答得更多，但错误率也更高。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为成都基地被曝招聘严重舞弊内网通告多人被开除

来京东领宁波3C数码国家补贴低价换新下单立减15%

Manus邀请码成“稀有品” 二手平台叫价上万

《最终幻想 16》销量惨淡，Square Enix 转向多平台战略

育碧危机重重：游戏取消、裁员、股价暴跌，还面临股东起诉

华为Mate之父李小龙换新手机：为原生鸿蒙而生

Anthropic CEO：未来AI或有自我决定权，可拒绝“不爽”的任务

7499元起 LG推出OLED evo AI C5系列电视：4K 144Hz屏

概念股集体飙升，首次现身政府工作报告的“深海科技”是什么？

「数据看盘」IM期指多头大幅加仓机构抄底多只跌停个股

亚马逊、Google等巨头签署“2050核电三倍”倡议

西南证券：市场主线行情尚未结束，供给出清较深个股更具价格弹性

【投融资动态】优频科技B轮融资，投资方为领军创投

引领无线直播新浪潮，中兴通讯5G-A直播技术加速商用落地

揭秘涨停 | 军工板块逆势大涨

股票行情快报：浙商银行（601916）3月13日主力资金净买入286.24万元

博主曝苹果A17 Pro有两个版本网友：以后谁还敢买首发

技嘉推出W880 AI TOP主板：双PCIe 5.0插槽、双雷电5

雷神首款18英寸游戏本！ZERO 18 Pro上架：RTX 5090+Ultra 9 275HX狂飙270W

老人“先用后付”下单54件商品电商新功能真方便还是真陷阱？

9个月狂赚7亿，叶国富正筹备第二家上市公司

当AI遇上开源：OpenManus如何让智能体触手可及

消息称华为悦彰家庭影院 3 月 20 日发布，采用 7.1.4 声道设计

货拉拉发布关于推送算法公开透明、向上向善机制公告

《哪吒之魔童闹海》烂番茄开分 100% 新鲜度

雷军真的懂女性用户小米SU7 Ultra化妆镜三档调光详解

Linux 6.15 内核将精准修补英特尔性能 / 能效核心安全漏洞

全站最新

华为成都基地被曝招聘严重舞弊内网通告多人被开除

来京东领宁波3C数码国家补贴低价换新下单立减15%

Manus邀请码成“稀有品” 二手平台叫价上万

三线“进取”，一汽奥迪的“中国式进化”！

燃油车时代落幕：福克斯与马自达6，两代经典的最终谢幕

星耀8：2025年B+级电混新贵，何以成为市场黑马？

《最终幻想 16》销量惨淡，Square Enix 转向多平台战略

新能源保值难题何解？福特纵横保值回购让车主吃下定心丸

热门推荐

华为成都基地被曝招聘严重舞弊内网通告多人被开除

来京东领宁波3C数码国家补贴低价换新下单立减15%

Manus邀请码成“稀有品” 二手平台叫价上万

《最终幻想 16》销量惨淡，Square Enix 转向多平台战略

育碧危机重重：游戏取消、裁员、股价暴跌，还面临股东起诉

华为Mate之父李小龙换新手机：为原生鸿蒙而生

Anthropic CEO：未来AI或有自我决定权，可拒绝“不爽”的任务

7499元起 LG推出OLED evo AI C5系列电视：4K 144Hz屏

概念股集体飙升，首次现身政府工作报告的“深海科技”是什么？

「数据看盘」IM期指多头大幅加仓机构抄底多只跌停个股

亚马逊、Google等巨头签署“2050核电三倍”倡议

西南证券：市场主线行情尚未结束，供给出清较深个股更具价格弹性

【投融资动态】优频科技B轮融资，投资方为领军创投

引领无线直播新浪潮，中兴通讯5G-A直播技术加速商用落地

揭秘涨停 | 军工板块逆势大涨