当前位置：首页 » 资讯 » 新科技 » 正文

AI 的“心智理论”难题：Meta ExploreToM 探索突破之路

IP属地北京 编辑：顾青青 IT之家 时间：2024-12-20 13:04:17

12 月 20 日消息，meta 公司携手华盛顿大学和卡内基梅隆大学，组建科研团队，合作开发了 ExploreToM 框架，旨在更有效地评估和训练大语言模型（LLM）的心智理论（Theory of Mind，ToM）能力。
心智理论
心智理论（Theory of Mind，ToM）是人类社会智能的基础之一，能让我们能够理解他人的想法、意图和信念。这种认知能力对于有效的沟通和协作至关重要，是复杂社交互动的支柱。
让 AI 也具备 ToM 能力，对于创建能与人类无缝互动的智能体至关重要，只是当前大型语言模型（LLM）在 ToM 方面仍面临巨大挑战。
现有的基准通常缺乏复杂性和多样性，导致高估模型能力。例如，许多基准测试基于简单的预定义场景，无法复制人类用来推断心理状态的复杂推理。
ExploreToM 框架
ExploreToM 通过生成多样化、可扩展的对抗性数据集，为提升 AI 的 ToM 能力奠定了坚实基础。该研究强调了当前模型的局限性，以及高质量训练数据对于弥合这些差距的潜力。
在数据集方面，ExploreToM 利用 A* 搜索算法和特定领域语言生成多样化、高难度的测试数据集，模拟复杂的社会情景，挑战 LLM 的认知极限。
ExploreToM 与现有基准测试不同，通过创建对抗性故事场景，旨在揭示 LLM 在 ToM 推理中的盲点。
此外该框架还引入了非对称信念更新机制，可以模拟不同角色对同一情况持有不同观点的复杂社交互动。
主流模型测试效果
GPT-4o 和 Llama-3.1-70B 模型在 ExploreToM 数据集上的准确率分别只有 9% 和 0%，凸显了现有 LLM 在处理复杂 ToM 推理方面的不足。
在 ExploreToM 数据上进行微调后，模型在经典 ToMi 基准测试中的准确率提高了 27 个百分点，证明了该框架的有效性。
附上参考地址

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

不用高通了！华为畅享80采用麒麟平台

新一代国产CPU龙芯3B6600媲美12/13代酷睿！

苹果无边框iPhone可能推迟，遇到技术难题

小米米家发布首款智能健腹轮，年轻人的第一个健腹轮？

阿里云通义开源首个多模态推理模型QVQ，视觉推理比肩OpenAI o1

全媒体广告代理加盟新风口：个人如何掘金互联网广告代理市场

东华软件加码AI 近三个月斥资8亿元新设4家公司

天合光能向合作伙伴提起仲裁索赔6亿元涉建设工程施工合同

睿智医药实控人将变更胡瑞连重返“掌舵”亏损几时休

TrendForce：预计 OLED 到 2027 年在笔记本市场渗透率突破 5%

iQOO 13 手机海外销售创新纪录

嘀嗒顺风车上线“邀请再次同行”功能，帮用户找到“同行搭子”

NVIDIA RTX 5070/Ti完整规格曝光！RTX 5070维持12GB显存

铭凡推出UN1250迷你主机：酷睿i5-1250P首发1599元起

100元拿30元苹果税中国全球最高！网友再次热议：这合理吗

温州鞋王要造存储芯片？奥康国际跨界收购联和存储

亮点抢先看北京问界品牌体验中心启幕在即

iQOO Z9 Turbo 长续航版手机「远航蓝」配色外观公布

逐鹿王者点燃寒冬鲲鹏应用创新大赛2024全国总决赛即将开赛

首创抗风噪设计！引领骨传导耳机品质革命!行业向南卡看齐

A股尾盘异动！银行股又站C位

努比亚Focus 2 5G通过认证搭载1.08亿主摄或3月发布

满级防水进水保修！OPPO A5 Pro预售：1949元起

2024年度评奖：手机SoC篇

ESG解读｜新易盛实控人套现4.63亿后被立案，减持细节存在披露不完全情况

2024年国内十大科技新闻公布：华为原生鸿蒙入选

住建部划重点，房地产明年这样干；专家：若城改、收储加快落地，2025年或可止跌

全站最新

比亚迪开年“王炸”！全新MPV夏有望1月8日上市，真能25万起售？

不用高通了！华为畅享80采用麒麟平台

新一代国产CPU龙芯3B6600媲美12/13代酷睿！

苹果无边框iPhone可能推迟，遇到技术难题

小米米家发布首款智能健腹轮，年轻人的第一个健腹轮？

阿里云通义开源首个多模态推理模型QVQ，视觉推理比肩OpenAI o1

全媒体广告代理加盟新风口：个人如何掘金互联网广告代理市场

东华软件加码AI 近三个月斥资8亿元新设4家公司

热门推荐

不用高通了！华为畅享80采用麒麟平台

新一代国产CPU龙芯3B6600媲美12/13代酷睿！

苹果无边框iPhone可能推迟，遇到技术难题

小米米家发布首款智能健腹轮，年轻人的第一个健腹轮？

阿里云通义开源首个多模态推理模型QVQ，视觉推理比肩OpenAI o1

全媒体广告代理加盟新风口：个人如何掘金互联网广告代理市场

东华软件加码AI 近三个月斥资8亿元新设4家公司

天合光能向合作伙伴提起仲裁索赔6亿元涉建设工程施工合同

睿智医药实控人将变更胡瑞连重返“掌舵”亏损几时休

TrendForce：预计 OLED 到 2027 年在笔记本市场渗透率突破 5%

iQOO 13 手机海外销售创新纪录

嘀嗒顺风车上线“邀请再次同行”功能，帮用户找到“同行搭子”

NVIDIA RTX 5070/Ti完整规格曝光！RTX 5070维持12GB显存

铭凡推出UN1250迷你主机：酷睿i5-1250P首发1599元起

100元拿30元苹果税中国全球最高！网友再次热议：这合理吗