当前位置：首页 » 资讯 » 新科技 » 正文

月之暗面发布新推理模型：数学能力对标o1系列

IP属地北京 编辑：刘敏雷递 时间：2024-11-17 09:17:10

乐天 11月17日
通用人工智能创业公司——月之暗面Kimi今日正式发布新一代数学推理模型 k0-math。这是Kimi推出的首款推理能力强化模型。
Kimi称，在多项基准能力测试中，k0-math的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型：o1-mini和o1-preview。
在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中，k0-math 初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中，k0-math初代模型的表现分别达到 o1-mini 最高成绩的 90% 和 83%。
“AI 领域正经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术，可以解决高质量数据缺乏的问题，将提升 AI 在各个领域和场景的推理能力和智能水平上限。”Kimi创始人杨植麟博士表示，“这不仅意味着，在编码、搜索等用户更日常的任务上，更强大推理能力，将会帮助每个用户解锁更多有挑战性的工作任务，而且在数学、物理、生物、化学等基础科学领域，很多尚未被解决的难题都有机会迎来破解的机会。”
Kimi数学模型 k0-math 对标 o1系列
Kimi 发布的k0-math模型采用了全新的强化学习和思维链推理技术，带来更强的数学推理能力，通过模拟人脑的思考和反思过程，大幅提升了解决数学难题的能力，可以帮助用户完成更具挑战性的数学任务。
Kimi称，在中考、高考、考研以及包含竞赛题的MATH等数学基准测试中，k0-math 初代模型成绩已经超过o1-mini和o1-preview模型。其中，在业界最常使用的数学能力基准测试 MATH 中，k0-math 模型得分 93.8，超过 o1-mini 的 90 分和 o1-preview 的 85.5 分。k0-math 这一成绩仅次于o1 完全版的 94.8 分——该模型尚未正式上线，还无法公开测试。
常规模型的关键目标是尽快提供答案。与之不同，在做题过程中，k0-math 模型会花更长的时间来推理，包括思考和规划思路，并且在必要时自行反思改进解题思路，提升答题的成功率。k0-math 的解题思考过程，常常会让数学高手也受到启发。以下面这道AIME 竞赛题目为例，k0-math 模型通过不断探索和试错，经历了八九次失败，意识到自己之前用了过于复杂的方法，最终得出了正确结果。
不过，需要注意的是，k0-math 模型虽然擅长解答大部分很有难度的数学题，但是当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。此外，它还有一些局限性需要突破，包括对于过于简单的数学问题，例如1+1=？k0-math模型可能会过度思考，对于高考难题和IMO题目依然有一定概率做错、猜答案，以及需要更好的泛化，才能在更多学科的场景中落地使用。
这些局限性既是机遇，也是挑战，预计将在下一阶段的模型迭代中逐步得到改善。
Kimi探索版推出三大推理能力：意图增强、信源分析和链式思考
新的强化学习技术范式带来的推理能力提升，也将会泛化到更多日常任务上。10月中旬上线的 Kimi 探索版，将推理能力运用到 AI 搜索任务上，通过模拟人类的推理思考过程，多级分解复杂问题，执行深度搜索，并即时反思改进结果，帮助用户更高效地完成复杂的搜索调研任务。
Kimi 探索版的搜索量是普通版的 10 倍，一次搜索即可精读超过 500 个页面。在信息调研和分析场景的真实长难搜索问题测试中，Kimi 探索版回答准确性和完整性具备全面优势，综合性能超过同类产品至少 30%。Kimi 探索版发布后，受到了程序员、科学家、咨询顾问、投资人、律师等专业人群的喜爱。
最近，Kimi 探索版运用强化学习技术创新搜索体验，在三大推理能力上实现突破：意图增强、信源分析和链式思考。
意图增强：Kimi 探索版可以将抽象的问题和模糊的概念具体化，拓展用户的真实搜索意图。例如，当互联网产品经理调研某产品的用户忠诚度，Kimi 探索版会思考当用户搜索“忠诚度”时，本质上是想做数据的分析，然后找到可以体现忠诚度的维度，将这个比较模糊和抽象的概念，转化为更加具体的“活跃度、留存率、使用频率、使用时长”等关键词，然后通过机器更擅长的海量并行搜索，查找更全面和准确的答案。
信源分析：Kimi 探索版会从大量的搜索来源结果中，分析筛选出更具权威性和可靠性的信源，并且在答案中提供溯源链接，可一键定位信源具体出处，精确到段落级别，让每条信息都有据可查。例如，在咨询顾问调查人群市场规模的场景，借助 Kimi 探索版查找中国不同年龄的人口占比情况时，Kimi 会筛选最权威和最新的人口普查报告信息。
链式思考：Kimi 探索版可以更好地基于思维链推理能力处理产品、公司、行业等研究问题。例如，当程序员做技术选型，想要了解“react中有哪些状态管理库，最好用的是什么”。Kimi 首先会拆解问题，找到react的状态管理库有哪些，然后分别搜索每个状态管理库的优缺点、使用场景和推荐理由，最后分析总结找到的所有高质量信息，推荐一个最适合大多数情况的状态管理库和理由。
Kimi 全面开放一周年，月活用户已超3600 万
2024年11月16日是Kimi智能助手全面开放的一周年纪念日。数据显示，2024年10月 Kimi智能助手在PC网页、手机APP、小程序等全平台的月度活跃用户已超过 3600 万。
Kimi称，k0-math 数学模型和更强大的 Kimi 探索版，将会分批陆续上线 Kimi 网页版（kimi.ai）和Kimi智能助手APP，帮助用户解决更有挑战的数学和搜索调研类任务，
“除了技术的不断变革，通往 AGI 的过程也是 Kimi 与用户通过产品互动共创的过程。”Kimi创始人杨植麟博士表示，“实际上，我们已经把产品当成一个强化学习的环境，模型在这个环境里跟用户交互，让技术、产品和用户体验都能持续变得更好，为用户创造更大的价值。”
———————————————
由媒体人雷建平创办，若转载请写明来源。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OPPO Reno 13 系列手机支持与 iPhone 一碰互传 Live 图

中国唯一地基红外天文望远镜在青海冷湖投入试运行

成都武侯一街区实现“互联网+明厨亮灶”

华为创新医疗数据湖技术：消除孤岛，让医疗数据持续在线助力智慧医疗发展

《真三国无双起源》官方发布弓腰姬孙尚香宣传片

《最终幻想7》重制版总监：游戏已确定剧情

9.2高分漏洞！ SnapOne旗下物联网设备中招了

年度游戏评选规则惹众怒 “年度游戏”提名不再神圣

《剑星》真实版“拍照模式” 国内玩家玩出花样

英伟达RTX 5090显卡规格曝光售价可能在1.3-1.4万元

亚马逊上最畅销的10款CPU：全是AMD

17日当天短剧分时半日榜：《天降圣童儿子，谁还要搬砖啊》第一

努比亚 Z70 Ultra 手机预热：全系搭载“IP68、IP69 满级防护”

全球第二大GPU生产商PC Partner总部迁离中国！新加坡上市、印尼生产

消息称明年下半年小米的“2K 大屏”手机尺寸增至 6.8 英寸级别

小米 Redmi K80 / Pro 手机参数曝光，消息称下周开启预热

16日品牌短剧榜：《大话大话西游》第一

荣耀发文祝贺AG选手一诺 KPL夺冠新机荣耀GT即将到来

韩国“AI雄心”遇阻超级计算机项目因芯片短缺遭推迟

330亿元巨额投资！北京将迎全新12英寸晶圆厂

三星迎战华为！三折叠手机明年发布：单屏/三屏使用

老游戏翻车新游戏也不消停《龙腾世纪：审判》再次出问题

16日短剧热门素材日榜：《力王》第一

16日短剧女演员&男演员火热指数排行榜：薛子祺、马小宇排名第一

vivo 贾净东：iQOO Neo10 Pro 搭载天玑 9400 和自研电竞芯片 Q2

《新世界：暗影成双》上架steam 多人合作演绎民国悬疑

微星推出31.5英寸4K 240Hz显示器：仅售7499元

全站最新

OPPO Reno 13 系列手机支持与 iPhone 一碰互传 Live 图

中国唯一地基红外天文望远镜在青海冷湖投入试运行

成都武侯一街区实现“互联网+明厨亮灶”

华为创新医疗数据湖技术：消除孤岛，让医疗数据持续在线助力智慧医疗发展

《真三国无双起源》官方发布弓腰姬孙尚香宣传片

《最终幻想7》重制版总监：游戏已确定剧情

9.2高分漏洞！ SnapOne旗下物联网设备中招了

年度游戏评选规则惹众怒 “年度游戏”提名不再神圣

热门推荐

OPPO Reno 13 系列手机支持与 iPhone 一碰互传 Live 图

中国唯一地基红外天文望远镜在青海冷湖投入试运行

成都武侯一街区实现“互联网+明厨亮灶”

华为创新医疗数据湖技术：消除孤岛，让医疗数据持续在线助力智慧医疗发展

《真三国无双起源》官方发布弓腰姬孙尚香宣传片

《最终幻想7》重制版总监：游戏已确定剧情

9.2高分漏洞！ SnapOne旗下物联网设备中招了

年度游戏评选规则惹众怒 “年度游戏”提名不再神圣

《剑星》真实版“拍照模式” 国内玩家玩出花样

英伟达RTX 5090显卡规格曝光售价可能在1.3-1.4万元

亚马逊上最畅销的10款CPU：全是AMD

17日当天短剧分时半日榜：《天降圣童儿子，谁还要搬砖啊》第一

努比亚 Z70 Ultra 手机预热：全系搭载“IP68、IP69 满级防护”

全球第二大GPU生产商PC Partner总部迁离中国！新加坡上市、印尼生产

消息称明年下半年小米的“2K 大屏”手机尺寸增至 6.8 英寸级别