当前位置：首页 » 资讯 » 新科技 » 正文

Meta 推出“自学评估器”：无需人工注释改善评估

IP属地北京 编辑：刘敏 IT之家 时间：2024-08-07 16:08:05

8 月 7 日消息，meta 公司为了缓解自然语言处理（NLP）技术依赖人类注释评估 AI 模型的问题，最新推出了“自学评估器”（Self-Taught evaluator），利用合成数据训练 AI。
NPU 技术挑战
NPU 技术的发展，推动大型语言模型（LLMs）高精度地执行复杂的语言相关任务，实现更自然的人机交互。
不过当前 NPU 技术面临的一个重要挑战，就是评估模型严重依赖人工注释。
人工生成的数据对于训练和验证模型至关重要，但收集这些数据既费钱又费时。而且随着模型的改进，以前收集的注释可能需要更新，从而降低了它们在评估新模型时的效用。
目前的模型评估方法通常涉及收集大量人类对模型响应的偏好判断。这些方法包括在有参考答案的任务中使用自动度量，或使用直接输出分数的分类器。
这些方法都有局限性，尤其是在创意写作或编码等复杂场景下，可能存在多个有效回答，导致了人类判断的高差异问题和高成本。
自学评估器
meta FAIR 团队推出了名为“自学评估器”的全新方式，不需要人工注释，而是使用合成数据进行训练。
这一过程从种子模型开始，种子模型会生成对比鲜明的合成偏好对。然后，模型对这些偏好对进行评估并不断改进，在随后的迭代中利用其判断来提高性能。这种方法充分利用了模型生成和评估数据的能力，大大减少了对人工注释的依赖。
附上关键步骤如下：
1. 使用种子 LLM 为给定指令生成基线响应。
2. 创建指令的修改版本，促使 LLM 生成质量低于原始响应的新响应。
这些配对回答构成了训练数据的基础，“自学评估器”作为 LLM-as-a-Judge，为这些配对生成推理轨迹和判断。
通过反复该过程，模型通过自我生成和自我评估的数据不断提高其判断的准确性，从而有效地形成自我完善的循环。
成果
meta FAIR 团队在 Llama-3-70B-Instruct 模型上测试“自学评估器”，在 RewardBench 基准测试中将准确率从 75.4 提高到了 88.7，达到或超过了使用人类注释训练的模型的性能，性能超过GPT-4等常用大语言模型评审（LLM Judges）。
这一重大改进证明了合成数据在加强模型评估方面的有效性。此外，研究人员还进行了多次迭代，进一步完善了模型的功能。
参考

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

外企杀手！印度又对中国等企业耍流氓：三星小米vivo等勾结电商平台垄断

合资变自主！奔驰退出：比亚迪100%持股腾势持股

小米SU7事故后底盘冒烟喷火官方回应：怀疑电池局部短路

小米官方送福利！MIX Fold4用户免费领取皮质保护壳：价值199元

AMD击败Intel获得PS6芯片合同

三星下一代Chromebook曝新升级：屏幕支持自适应色彩功能

官宣一年多仍未正式推出：微软确认取消Edge圆角标签页等设计！

李子园卖不动了？甜牛奶巨头为啥不行了？

小杨哥直播间“香港美诚月饼”卖爆，结果在港根本没门店！产品已下架，官方介入调查

投行大佬内幕交易连亏带罚近千万！证监会曝光，光大证券回应！

港交所：恶劣天气交易9月23日起生效

华润信托总经理胡昊：市场将会鼓励适销对路、符合导向的产品和服务

115网盘回应故障：服务器遭遇恶意网络攻击，“终止服务”系谣言

微信再度更新！界面清清爽爽爽爽快快

小米SUV路试谍照曝光，溜背式低趴风惹眼

高通发布中秋短片，由搭载骁龙移动平台的手机拍摄

小米汽车回应南京 SU7 着火：路面湿滑、操作不当导致事故

港交所：9 月 23 日起实施恶劣天气交易

《战争机器》制作人：办公室文化杀死了《星鸣特攻》

唐狮双节宠粉嘉年华， ps5游戏机&Iphone15高能“爆”回家

中秋节新皮肤三选一，敖隐金龙传说官宣，S37赛季开启时间已定

剑与远征2启程最强阵容搭配秘籍

【果娘聊天室】9月你打算玩哪一款限时独占？

“悟空”游戏月饼“变”出老字号新味道

19岁河南女生夺世界技能大赛冠军

大赛 | 妙笔西行 - 炉石传说酒馆战棋英雄皮肤设计大赛（截至2024.10.20）

克苏鲁粉丝必看!《新倩女幽魂》最新力作挑战你的神经极限

全站最新

省厅新规！使用AI生成材料，列为失信行为！

AI+机器人让优质医疗跨越时空壁垒

南沙楼市，已和增城无异

边看房、边游玩，南宁多个房企频频出招吸引购房者

4房可以租8000元！昨天，我去看了沥滘回迁房……

深圳光明区房价大跳水，房价普跌45%！

中秋假期郑州多楼盘迎来看房“小高潮”，首日有楼盘认购超1500万

现在的买房人，赌怕了

热门推荐

外企杀手！印度又对中国等企业耍流氓：三星小米vivo等勾结电商平台垄断

合资变自主！奔驰退出：比亚迪100%持股腾势持股

小米SU7事故后底盘冒烟喷火官方回应：怀疑电池局部短路

小米官方送福利！MIX Fold4用户免费领取皮质保护壳：价值199元

比亚迪认购奔驰所持腾势汽车10%全部股权

字节跳动加大人工智能芯片研发力度

AMD击败Intel获得PS6芯片合同

三星下一代Chromebook曝新升级：屏幕支持自适应色彩功能

官宣一年多仍未正式推出：微软确认取消Edge圆角标签页等设计！

李子园卖不动了？甜牛奶巨头为啥不行了？

小杨哥直播间“香港美诚月饼”卖爆，结果在港根本没门店！产品已下架，官方介入调查

投行大佬内幕交易连亏带罚近千万！证监会曝光，光大证券回应！

港交所：恶劣天气交易9月23日起生效

华润信托总经理胡昊：市场将会鼓励适销对路、符合导向的产品和服务

115网盘回应故障：服务器遭遇恶意网络攻击，“终止服务”系谣言