当前位置：首页 » 资讯 » 新科技 » 正文

Llama 版 o1 大模型发布：来自上海 AI Lab，强化学习代码已开源

IP属地北京 编辑：吴俊 IT之家 时间：2024-11-05 13:04:17

复刻 OpenAI o1 推理大模型，开源界传来最新进展：
LLaMA 版 o1项目刚刚发布，来自上海 AI Lab团队。
简介中明确：使用了蒙特卡洛树搜索，Self-Play 强化学习，PPO，以及 AlphaGo Zero 的双重策略范式（先验策略 + 价值评估）。
在 2024 年 6 月，o1 发布之前，团队就开始探索蒙特卡洛树搜索提高大模型数学能力，积累了一些关注。
这次最新开源代码，也在开发者社区引起热议。
OpenAI o1 系列发布后，团队开始升级算法，专注于数学奥赛问题，作为 OpenAI 草莓项目的开源版本。
10 月初，团队上传新论文，使用成对优化（不直接给出绝对分数，而是比较两个答案的相对优劣）提高 Llama 模型数学奥赛能力。
在最难的 AIME2024 基准测试 30 道题中，原版 LLaMA-3.1-8B-Instruct 做对 2 道，优化后做对 8 道，超过了除 o1-preview 和 o1-mini 之外的其他商业闭源方案。
10 月底，团队宣布在基于 AlphaGo Zero 架构复刻 OpenAI o1 的努力中取得了重大进展：

已成功使模型在学习过程中通过与搜索树交互获得高级思维能力，无需人工标注。
不到一周时间，项目便开源了。
LLaMA 版 o1 最新进展
目前已开源内容包括：预训练数据集、预训练模型、强化学习训练代码。
OpenLongCoT-Pretrain 数据集，包含 10 万 + 条长思维链数据。
每条数据包含一个完整的数学问题推理过程，包含思考内容和评分结果。
例如一个几何问题，包含了问题描述、图形坐标、计算过程和结论推导等完整的推理链路，以及对各个推理步骤的批评和验证内容，对推理过程进行评价和指导。
在此数据集继续预训练后，模型可读取和输出类似 o1 的长思维链过程。
预训练代码尚未发布，目前推荐使用 LLaMaFactory 代替。
有意思的是虽然项目名为 LLaMA-O1，但目前官方给的预训练模型基于谷歌 Gemma 2。
目前在预训练模型基础上，可以继续进行强化学习训练，从代码中可以看出训练过程如下：

使用蒙特卡洛树搜索进行自我对弈 (self-play) 以生成经验

将经验存储在优先经验回放缓冲区中

从缓冲区采样批次数据进行训练

更新模型参数和经验优先级
论文中也给出了训练过程的图示。
同时训练代码中使用了以下关键技术点：

使用 LoRA 进行参数高效微调

使用 PPO 算法作为策略优化方法

实现了 GAE (Generalized Advantage Estimation) 算法用于计算优势函数

使用优先经验回放提高训练效率
最后，LLaMA-O1 代码发布在名为 SimpleBerry的 GitHub 账号下，并没有特别简介，还比较神秘。
其他与 SimpleBerry 有关的账号和官网中，只能看出性质是一个研究实验室，也并未透露更多研究方向信息。
其他 o1 复刻项目进展
除 LLaMA-O1 之外，另一个公开进展的 o1 复刻项目 O1-Journey来自上交大团队。
团队在十月初发布了第一份进展报告，其中介绍了创新 Journey Learning 范式，以及第一个成功将搜索和学习整合到数学推理中的模型。
O1-Journey 核心开发团队主要由上交大大三、大四本科生，以及上交大 GAIR 实验室（生成式人工智能研究实验室）的一年级博士生组成。
指导教师包括上交大副教授刘鹏飞，姚班校友、斯隆奖得主李远志等。
LLaMA-O1：

https://github.com/SimpleBerry/LLaMA-O1
相关论文：
O1-Journey：
本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨，原标题《Llama 版 o1 来了，来自上海 AI Lab，强化学习代码已开源，基于 AlphaGo Zero 范式》
广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

宝马携超30款车型亮相上海车展新世代驾趣概念车全球首发

太极集团业绩崩盘，新董事长俞敏上任不足半年

新董事长杨秀明年度业绩首秀，重庆银行“增量不增质”？

新奥能源拟私有化，现有股东如何获利？

联想集团2025/26财年誓师大会顺利举行

谷歌计划将Gemini引入Chrome浏览器侧边栏

科技巨头与航天企业因卫星频谱资源展开法律争夺战

日料品类发展报告2025：品类持续回暖，细分赛道显现新潜力

KTC 5K 双模果粉屏显示器 H27P3 发布，3599 元

高通小至尊版芯片！REDMI首发骁龙8s Gen4

摩根士丹利基金管理公司注册资本增至9.5亿

官方媒体为哪吒之魔童闹海加油助威：全球票房近155亿

谁在悄悄打开男性消费者的钱包

宏碁掠夺者存储推出 M.2 PCIe 4.0 固态硬盘 GM6，采用 QLC 颗粒

东盟创新合作发展论坛在京举行中关村发展集团联合多方共建创新合作新生态

李杰换上一加13T：年度小屏旗舰性能/续航均是行业最强

中信消费金融公司注册资本增至10亿

山灵 SMT1.3 台式流媒体转盘上市：双频 WiFi6 传输，4798 元

OPPO Find X8s落樱粉官图公布：1.25mm全球最窄边女生一见倾心

华电国际、中国康富投资成立能源新公司

乘客“开门杀”致人死亡：网约车司机被判主责，获有期徒刑一年

7300mAh续航灭霸！vivo Y300 Pro+发布：1799元起

多瑞医药等在北京成立医疗器械公司

美的集团回应清仓小米：正常投资操作，没有什么特别原因

美的回应彻底清仓小米：公司正常投资操作

曾遭央视“3·15”晚会曝光的这家公司，2024年预亏3800万

家电消费市场持续回暖消费者购买以旧换新家电近9000万台

全站最新

比亚迪汉L将上市动力强劲比肩小米SU7！

苹果园街道：智能地锁上线，新能源汽车充电不再难！

六款车型/最低5.68万元起比亚迪海洋推限时一口价

负债96万到市值480亿，山东高密首富如何逆袭？

六款车型/最低5.68万元起比亚迪海洋推限时一口价

中国策略调整？古驰连关六店，BV连关四店，浪凡多地撤店

AI智能电商财务分析系统：精准剖析数据，助力电商财务高效决策

人均GDP将飙升至8万：我们却依旧挤地铁、买不起房，问题出在哪？

热门推荐

火石会48小时奇迹：140位产业巨头共筑AI“星河舰队”

AI时代新坐标！火石会：应时而生，聚势而为

宝马携超30款车型亮相上海车展新世代驾趣概念车全球首发

太极集团业绩崩盘，新董事长俞敏上任不足半年

新董事长杨秀明年度业绩首秀，重庆银行“增量不增质”？

新奥能源拟私有化，现有股东如何获利？

联想集团2025/26财年誓师大会顺利举行

谷歌计划将Gemini引入Chrome浏览器侧边栏

科技巨头与航天企业因卫星频谱资源展开法律争夺战

日料品类发展报告2025：品类持续回暖，细分赛道显现新潜力

KTC 5K 双模果粉屏显示器 H27P3 发布，3599 元

高通小至尊版芯片！REDMI首发骁龙8s Gen4

摩根士丹利基金管理公司注册资本增至9.5亿

官方媒体为哪吒之魔童闹海加油助威：全球票房近155亿

谁在悄悄打开男性消费者的钱包