当前位置：首页 » 资讯 » 新科技 » 正文

谷歌 DeepMind 展示 GenRM 技术，提升生成式 AI 推理能力

IP属地北京 编辑：刘敏 IT之家 时间：2024-09-03 08:32:43

9 月 3 日消息，谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文，介绍展示了 GenRM 生成式验证器，创造性提出奖励模型，从而提升生成式 AI 推理能力。
AI 行业内，目前提高大语言模型（LLMs）的主流做法就是 Best-of-N 模式，即由 LLM 生成的 N 个候选解决方案由验证器进行排序，并选出最佳方案。
这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分，但它们无法利用预训练 LLMs 的文本生成能力。
DeepMind 团队为了克服这个局限性，尝试使用下一个token 预测目标来训练验证器，同时进行验证和解决方案生成。
DeepMind 团队这种生成式验证器（GenRM），相比较传统验证器，主要包含以下优点：
无缝集成指令调整支持思维链推理通过多数投票利用额外的推理时间计算
在算法和小学数学推理任务中使用基于 Gemma 的验证器时，GenRM 的性能优于判别式验证器和 LLM-as-a-Judge 验证器，在使用 Best-of-N 解决问题的百分比上提高了 16-64%。
据 Google DeepMind 报道，GenRM 相对于分类奖励模型的边标志着人工智能奖励系统的关键演化，特别是在其容量方面，以防止新模型学成到的欺诈行为。这一进步突出表明，迫切需要完善奖励模型，使人工智能输出与社会责任标准保持一致。
附上参考地址

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

外企杀手！印度又对中国等企业耍流氓：三星小米vivo等勾结电商平台垄断

合资变自主！奔驰退出：比亚迪100%持股腾势持股

小米SU7事故后底盘冒烟喷火官方回应：怀疑电池局部短路

小米官方送福利！MIX Fold4用户免费领取皮质保护壳：价值199元

AMD击败Intel获得PS6芯片合同

三星下一代Chromebook曝新升级：屏幕支持自适应色彩功能

官宣一年多仍未正式推出：微软确认取消Edge圆角标签页等设计！

李子园卖不动了？甜牛奶巨头为啥不行了？

小杨哥直播间“香港美诚月饼”卖爆，结果在港根本没门店！产品已下架，官方介入调查

投行大佬内幕交易连亏带罚近千万！证监会曝光，光大证券回应！

港交所：恶劣天气交易9月23日起生效

华润信托总经理胡昊：市场将会鼓励适销对路、符合导向的产品和服务

115网盘回应故障：服务器遭遇恶意网络攻击，“终止服务”系谣言

微信再度更新！界面清清爽爽爽爽快快

小米SUV路试谍照曝光，溜背式低趴风惹眼

高通发布中秋短片，由搭载骁龙移动平台的手机拍摄

小米汽车回应南京 SU7 着火：路面湿滑、操作不当导致事故

港交所：9 月 23 日起实施恶劣天气交易

《战争机器》制作人：办公室文化杀死了《星鸣特攻》

唐狮双节宠粉嘉年华， ps5游戏机&Iphone15高能“爆”回家

中秋节新皮肤三选一，敖隐金龙传说官宣，S37赛季开启时间已定

剑与远征2启程最强阵容搭配秘籍

【果娘聊天室】9月你打算玩哪一款限时独占？

“悟空”游戏月饼“变”出老字号新味道

19岁河南女生夺世界技能大赛冠军

大赛 | 妙笔西行 - 炉石传说酒馆战棋英雄皮肤设计大赛（截至2024.10.20）

克苏鲁粉丝必看!《新倩女幽魂》最新力作挑战你的神经极限

全站最新

省厅新规！使用AI生成材料，列为失信行为！

AI+机器人让优质医疗跨越时空壁垒

南沙楼市，已和增城无异

边看房、边游玩，南宁多个房企频频出招吸引购房者

4房可以租8000元！昨天，我去看了沥滘回迁房……

深圳光明区房价大跳水，房价普跌45%！

中秋假期郑州多楼盘迎来看房“小高潮”，首日有楼盘认购超1500万

现在的买房人，赌怕了

热门推荐

外企杀手！印度又对中国等企业耍流氓：三星小米vivo等勾结电商平台垄断

合资变自主！奔驰退出：比亚迪100%持股腾势持股

小米SU7事故后底盘冒烟喷火官方回应：怀疑电池局部短路

小米官方送福利！MIX Fold4用户免费领取皮质保护壳：价值199元

比亚迪认购奔驰所持腾势汽车10%全部股权

字节跳动加大人工智能芯片研发力度

AMD击败Intel获得PS6芯片合同

三星下一代Chromebook曝新升级：屏幕支持自适应色彩功能

官宣一年多仍未正式推出：微软确认取消Edge圆角标签页等设计！

李子园卖不动了？甜牛奶巨头为啥不行了？

小杨哥直播间“香港美诚月饼”卖爆，结果在港根本没门店！产品已下架，官方介入调查

投行大佬内幕交易连亏带罚近千万！证监会曝光，光大证券回应！

港交所：恶劣天气交易9月23日起生效

华润信托总经理胡昊：市场将会鼓励适销对路、符合导向的产品和服务

115网盘回应故障：服务器遭遇恶意网络攻击，“终止服务”系谣言