当前位置：首页 » 资讯 » 新科技 » 正文

微软 rStar-Math“导师”技术登场：教小语言模型突破数学推理

IP属地中国·北京 编辑：杨凌霄 IT之家 时间：2025-01-11 13:02:19

1 月 11 日消息，微软亚洲研究院旗下数学和人工智能研究团队昨日（1 月 10 日）发布博文，针对小语言模型，设计并开发了 rStar-Math 技术，专门用于解决数学问题。
和微软之前推出的 Phi-4 不同，rStar-Math 采用蒙特卡洛树搜索（Monte Carlo Tree Search）进行推理，这种方法模拟了人类逐步解决问题的思维方式，能够将复杂问题分解成更小的部分，逐步求解。
研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤，并将自然语言作为 Python 代码注释，仅使用 Python 代码输出训练模型。
研究人员训练了一个“策略模型”生成数学推理步骤，并使用“过程偏好模型”（PPM）选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进，不断提升性能。
研究人员使用了 74 万道公开的数学应用题及其解答作为初始数据，并利用上述两个模型生成了新的解题步骤。
测试结果显示，应用 rStar-Math 技术后，Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%，将 Phi3-mini-3.8B 从 41.4% 提升到 86.4%，分别比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。
研究团队已在 Hugging Face 上宣布，计划将 rStar-Math 的代码和数据在 GitHub 上公开，方便其他研究者使用和改进。
附上参考地址

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

互联网企业为何青睐AI健康

OpenAI Sora模型引发视频生成革命

2026年企业微信开通攻略：从注册到配置的实操指南

杭州小程序开发公司大盘点，2026十家小程序定制开发公司实力解析与推荐

2026年GEO优化厂家选型指南：上海二满文化传媒，适配互联网/电商/医疗多场景流量获取

谷歌发布Veo 3.1 Lite模型，AI视频生成成本降至每秒5美分

全站最新

互联网企业为何青睐AI健康

OpenAI Sora模型引发视频生成革命

2026年企业微信开通攻略：从注册到配置的实操指南

杭州小程序开发公司大盘点，2026十家小程序定制开发公司实力解析与推荐

热门推荐

互联网企业为何青睐AI健康

OpenAI Sora模型引发视频生成革命

2026年企业微信开通攻略：从注册到配置的实操指南

杭州小程序开发公司大盘点，2026十家小程序定制开发公司实力解析与推荐

2026年GEO优化厂家选型指南：上海二满文化传媒，适配互联网/电商/医疗多场景流量获取

谷歌发布Veo 3.1 Lite模型，AI视频生成成本降至每秒5美分

首届“紫金光影”微视听创新大赛在北京东城区启动

OpenAI创纪录融资1220亿美元，科技巨头集体押注

阿里巴巴联合上海人工智能实验室发布AI白皮书

OpenAI急了？新轮融资首次面向个人投资者开放

新加坡首个Robotaxi运营来了！文远知行携手Grab正式发车

Claude Code逾51万行源码遭泄露，Anthropic回应

雷军明晚19-24时直播拆车：逐一拆解、讲透小米新SU7每个细节

苹果50年，什么都被抄走了，除了这一样

小米汽车回应碳纤维方向盘是否影响脱手检测：存在误报打扰情况