当前位置：首页 » 资讯 » 新科技 » 正文

中国信通院启动 AI 大模型幻觉评测，总体涉及五种测试维度

IP属地北京 编辑：任飞扬 IT之家 时间：2025-03-19 17:02:03

3 月 19 日消息，从中国信通院官方微信公众号获悉，为摸清大模型的幻觉现状，推动大模型应用走深走实，中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作，发起大模型幻觉测试。
大模型幻觉（AI Hallucination）是指模型在生成内容或回答问题时，产生了看似合理，实则与用户输入不一致（忠实性幻觉）或者不符合事实（事实性幻觉）的内容。随着大模型在医疗、金融等关键领域广泛应用，大模型幻觉带来的潜在应用风险日益加剧，正得到业界的广泛关注。
本轮幻觉测试工作将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型，具体测评体系如下：
测试数据包含 7000 余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。
中国信通院邀请各相关企业参与模型测评，共同推动大模型安全应用。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

浪潮云“分布式智能云”战略正式发布目标年内分布式智能云节点破千个

雷军6层楼顶扔下西瓜摔在地上竟完好无损

沉迷物理的张朝阳，去年和搜狐赚了近 6 亿美元

股价大涨逾121%！刚刚，A股牛股官宣：签单了！

小米“史上最强年报”，我们是这么看的

佰维存储19亿定增获批背：募投金额“腰斩”，扩产消化能力待考

百度，紧急发布声明：已报案

今天，皮衣黄祭出史最强芯片！一文妥速懂

追觅 Z50 Station 发布，吸力强还能双贴边清扫！

微软 Xbox 无障碍摇杆国行上架：7 个可编程按键，219 元

微信罕见一天两更，更新量有点大

陈年：我的人生被雷军改变，要对得起他带来的流量

抖音巨量广告上如何设置跳转微信链接？

谷歌母公司拟300亿美元收购云安全初创公司Wiz

阿里全面拥抱AI，吴泳铭：2025年部门绩效与AI应用效果紧密捆绑

中国短剧狂卷全球：老外直呼上头，收入暴增12倍

阅文正在经历一次关键跨越

为什么说TBC是“伪领先”？

接入DeepSeek，小红书要谨慎一“点点”

乐信发布Q4财报：营收36.6亿，利润同比增长32.5%，各项经营指标持续改善

读懂IPO|优优绿能境外客户“动摇”，上市前已遭股东两次减持

从信仰logo到实用主义，中国家庭的选车逻辑变了

产品力跨越式突破夯实行业五强地位，招商蛇口守稳开发基本盘

14400 米：国内最大隧洞引水式电站水工隧洞全线贯通

地面有火箭和飞船待命：中国航天员不会像美国宇航员那样回不来

国内单机最大抽水蓄能电站 2 号机定子磁化试验一次性通过

华为Pura 80 Pro工程机，变直

全站最新

比亚迪兆瓦闪充5分钟续航400公里，充电比手机还快

凭独特设计与卓越性能，iCAR V23开启新能源出行新篇

iCAR V23：复古未来风，重塑纯电SUV价值版图

硬派复古纯电SUV iCAR V23，开启出行新范式

续航无忧科技领先，iCAR V23纯电动小型SUV

比亚迪超级e平台，兆瓦闪充开启油电同速

百万神车归来，全新奇瑞QQ强势纯电回归，能否再续初代神车辉煌？

重构纯电SUV iCAR V23开启个性出行

热门推荐

浪潮云“分布式智能云”战略正式发布目标年内分布式智能云节点破千个

雷军6层楼顶扔下西瓜摔在地上竟完好无损

沉迷物理的张朝阳，去年和搜狐赚了近 6 亿美元

股价大涨逾121%！刚刚，A股牛股官宣：签单了！

小米“史上最强年报”，我们是这么看的

佰维存储19亿定增获批背：募投金额“腰斩”，扩产消化能力待考

百度，紧急发布声明：已报案

今天，皮衣黄祭出史最强芯片！一文妥速懂

追觅 Z50 Station 发布，吸力强还能双贴边清扫！

微软 Xbox 无障碍摇杆国行上架：7 个可编程按键，219 元

微信罕见一天两更，更新量有点大

陈年：我的人生被雷军改变，要对得起他带来的流量

抖音巨量广告上如何设置跳转微信链接？

谷歌母公司拟300亿美元收购云安全初创公司Wiz

阿里全面拥抱AI，吴泳铭：2025年部门绩效与AI应用效果紧密捆绑