当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI 宣布开源 SimpleQA 新基准，专治大模型“胡言乱语”

IP属地北京 编辑：郑佳 IT之家 时间：2024-10-31 08:07:54

10 月 31 日消息，当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。
OpenAI 表示，目标是使用 SimpleQA 创建一个具备以下特点的数据集：
高正确性：问题的参考答案由两名独立的 AI 训练师验证，以确保评分的公正性。多样性：SimpleQA 涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。前沿挑战性：与 TriviaQA（2017 年）或 NQ（2019 年）等早期基准相比，SimpleQA 更具挑战性，尤其针对如 GPT-4o 等前沿模型（例如，GPT-4o 的得分不足 40%）。高效用户体验：SimpleQA 问题与答案简洁明了，使操作快速高效，并可通过 OpenAI API 等进行快速评分。此外，包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。
SimpleQA 将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。
OpenAI 表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展，使模型更加可信并富有可靠性。
附有关地址：
开源链接：https://github.com/openai/simple-evals/ 论文：https://cdn.openai.com/papers/simpleqa.pdf

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Mini LED电视今年彻底火了：第三季度销量暴涨6.4倍

收入暴涨350%！做玩具的华南厂商，竟靠100多款小游戏崛起？

被指配料表造假，良品铺子的“高端光环”还在吗？

聚美优品「瘫痪」，陈欧爱上「霸总」

Linus:：我略微出手修改几行内核代码就提升了2.6%性能

50进12！第二届点灯人素养大赛终评第二轮结果公示

《合金弹头：战略版》IGN 8分致敬经典、引入创新

玩完怪猎荒野Beta版，我觉得虾头太刀站起来了。

《和平精英》《流浪地球2》梦幻联动：太空电梯、行星发动机入驻游戏

《血源》模拟器版达到4K/100帧完美运行指日可待

Steam 好评率 98%，手游版《星露谷物语》上线

【资讯】NOVA海外独立游戏见闻（ Vol.55）

《合金弹头：战略版》正式发售 Mission Start

红魔9pro，跌至4149元，推荐给游戏玩家！

半数A股游戏公司前三季营收净利双降

V社宣布 Steam 正式加入游戏录制功能，放弃支持 Win7/8

2024财富游学团再度起航，百度爱采购与联想官网企业购全力支持中小企业数智化发展

高校超品日丨携手宏碁掠夺者存储走进南京传媒学院，高性能存储引领AI创意新浪潮

《星之卡比》系列的多重维度

知名游戏咨询公司Powell Group放弃Sweet Baby

11月5日游戏ETF（159869）份额增加9100.00万份，最新份额57.78亿份，最新规模60.35亿元

Steam平台升级：游戏录像功能正式引入操作系统支持调整

《霍格沃茨之遗》大获成功华纳兄弟正在开发续作

“35岁大厂裸辞，我去做鄙视链底端的小游戏”

美国玩家贡献最大任天堂音乐APP下载量突破百万

济南这家“店”突然关门跑路，有人才充了2万多元

11月5日游戏传媒ETF（517770）份额减少200.00万份，最新份额3694.78万份，最新规模3428.02万元

全站最新

李兆基、李嘉诚作序！一书看尽香港郑氏家族的发展和传承

Mini LED电视今年彻底火了：第三季度销量暴涨6.4倍

收入暴涨350%！做玩具的华南厂商，竟靠100多款小游戏崛起？

被指配料表造假，良品铺子的“高端光环”还在吗？

聚美优品「瘫痪」，陈欧爱上「霸总」

Linus:：我略微出手修改几行内核代码就提升了2.6%性能

50进12！第二届点灯人素养大赛终评第二轮结果公示

《合金弹头：战略版》IGN 8分致敬经典、引入创新

热门推荐

Mini LED电视今年彻底火了：第三季度销量暴涨6.4倍

收入暴涨350%！做玩具的华南厂商，竟靠100多款小游戏崛起？

被指配料表造假，良品铺子的“高端光环”还在吗？

聚美优品「瘫痪」，陈欧爱上「霸总」

Linus:：我略微出手修改几行内核代码就提升了2.6%性能

50进12！第二届点灯人素养大赛终评第二轮结果公示

《合金弹头：战略版》IGN 8分致敬经典、引入创新

玩完怪猎荒野Beta版，我觉得虾头太刀站起来了。

《和平精英》《流浪地球2》梦幻联动：太空电梯、行星发动机入驻游戏

《血源》模拟器版达到4K/100帧完美运行指日可待

Steam 好评率 98%，手游版《星露谷物语》上线

Steam全新功能对所有用户开放，快来试试！

【资讯】NOVA海外独立游戏见闻（ Vol.55）

《合金弹头：战略版》正式发售 Mission Start

红魔9pro，跌至4149元，推荐给游戏玩家！