当前位置：首页 » 资讯 » 新科技 » 正文

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

IP属地北京 编辑：冯璃月华尔街见闻 时间：2024-12-21 16:00:18

2024年12月21日，OpenAI在其为期12天发布会活动的最后一天，正式发布了备受期待的o3系列模型。在外界普遍认为AI发展速度趋缓之际，OpenAI带来了“改变游戏规则”的重大突破，向AGI迈出关键一步。
在被视为通用人工智能(AGI)重要衡量标准的ARC-AGI测试中，o3模型创下新纪录：低算力配置下便以75.7%的得分登顶公共排行榜，而高算力版本更是达到87.5%的惊人成绩，一骑绝尘。
这一成绩远超o1系列，后者在同一测试中的得分仅为25%。
这一突破的意义非同寻常。Keras之父、ARC-AGI测试发起人François Chollet对此评价道：

“这是一个令人惊讶且重要的阶跃式提升，展示了GPT系列模型前所未有的新型任务适应能力。

作为对比，ARC-AGI-1从2020年GPT-3的0%提升到2024年GPT-4o的5%，历时四年。

随着o3的出现，关于人工智能能力的所有既有认知都需要重新评估。”
不过，虽然ARC-AGI测试中表现出色，但这并不意味着o3已达到了AGI水平，因为它仍会在一些非常简单的任务中犯错。
此外，Chollet还表示，在即将发布的新版测试（ARC-AGI-2）中，其表现预计将大幅下降至30%以下，而普通人类仍能保持95%以上的高分。更重要的是，o3仍然依赖人工标注数据，无法像人类那样通过与现实世界的直接互动来学习和适应。
o3来了！
2024年12月21日，OpenAI在其为期12天发布会活动的最后一天，正式发布了备受期待的o3系列模型，包括o3和o3-mini。

o3 是一个非常强大的模型，在编码、数学以及ARC-AGI基准测试等多个基准上超过了OpenAI此前的o1模型（o1得分25%，o3得分87.5%)。

o3-mini是o3更经济高效且性能导向的版本，在成本和延迟方面比o1-mini低得多，同时提供类似的功能。
OpenAI正向安全研究人员开放o3和o3-mini的早期访问，预计o3-mini将于1月底左右发布，o3则稍后。
技术路线推演，大模型下一步技术路线已现端倪？
ARC-AGI（人工通用智能评估基准）测试是由Keras之父François Chollet发起，旨在评估AI系统在面对未见过的新任务时的适应能力。ARC-AGI测试的核心在于其设计的任务往往需要深度逻辑推理和创新思维，这使得它成为评估AI系统通用智能能力的重要工具。
如前文所述，o3系列在这一测试中取得了显著的成绩。Chollet认为，o3的成功绝非依靠简单的算力堆砌，其核心创新在于从根本上改变了AI处理信息的方式。
传统大语言模型（LLM）采用"记忆-获取-应用"的范式，本质上是通过被动接触人类内容来存储和运行数百万个微型程序。这种方法虽然能在特定任务上达到很高水平，但始终无法突破适应新环境或即时掌握新技能。
相比之下，Chollet推测，o3开创了全新的方法：
在token空间内进行自然语言程序搜索和执行使用类似AlphaZero的蒙特卡洛树搜索方法通过评估器模型引导搜索过程
这种创新使o3能够：
实时生成和执行解决方案程序通过思维链（Chain of Thought）实现知识的动态重组展现出类人的任务适应能力
虽然目前每个任务的计算成本仍然较高（低算力模式下约17-20美元/任务，相比人工解决方案的5美元/任务），但Chollet认为，这种成本预计将随技术发展快速下降。
距离AGI还有多远？
尽管o3取得了突破性进展，但称其为AGI还为时过早。Chollet在文章中提及，o3的主要局限包括：
技术层面的局限： 仍然依赖自然语言指令而非可执行的符号程序缺乏与现实世界的直接交互能力无法通过直接执行来评估解决方案的有效性 性能层面的局限： 在某些基础任务上仍会出现失误在即将发布的ARC-AGI-2测试中，预计其得分可能降至30%以下（而普通人类仍能保持95%以上的得分）依赖专家标注的人工生成数据，缺乏自主学习能力 效率层面的局限： 高昂的计算成本大量的计算资源消耗在某些任务上的效率低于人类结语
毫无疑问，o3的出现无疑是一个里程碑式的突破。
对于整个AI行业来说，o3的价值可能在于，它证明了AI进步不仅仅依赖于简单地扩大模型规模和增加训练数据，更关键的是架构创新，这种方法为AI的发展开辟了新的方向。
Chollet表示：

“实际上，o3代表了一种深度学习引导的程序搜索形式...

同时，由于推理预算的可变性，效率（如计算成本）已成为评估AI性能时的必要指标。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OpenAI最强推理模型o3发布：AGI能力暴涨接近人类水平

高通打赢芯片诉讼！未违反Arm许可协议

又一造车新势力完了创始人全跑路

联想笔记本都卷成这样了？预定年度最佳创新

华为开源鸿蒙新版发布！代码超1.2亿行

玩出热雪，Evina在吉林北大湖与ZOL开启盛大狂欢

玩出极速更热雪三星品牌存储北大湖潮好玩惊艳大批雪友

折叠屏2024的新东西、好东西、旧东西

恒瑞医药知天命，孙飘扬“人无再少年”

小菜园成功上市，成长性如何

联想黄智信：2025年将是联想moto的复兴之旅

聚焦兴趣消费打造中国品牌出海新范本，名创优品入选任泽平年度演讲案例

飞天云动荣耀“兴智杯”AI+文旅奖，携手重庆两江共绘元宇宙数字文旅蓝图

网易易盾发布业内首个内容安全成熟度模型，助企业提升风险防范及应对能力

共筑金融云上新核心华为主机上云方案亮相2024金融主机上云工作会议

2024二手经济高质量创新发展大会二手电子产品网络交易分论坛举办凌雄科技应邀出席

巅峰盛典星光璀璨！昇腾AI创新大赛2024总决赛成功举行

OPPO A5 Pro 手机首发“高能户外模式”，支持一键抢单加速

CPU-Z 发布 2.13 版本更新：支持英特尔 Arrow Lake-U 处理器

种田游戏《沙石镇时光》多人跨平台联机已上线 NS

为“不正常”买单的年轻人，成了新一代嬉皮士

跨境电商“四小龙”的2024出海奇遇

复盘宝宝树退市：一家明星企业的“非正常”陨落

为了吃饱饭，大脑改变了什么？

周鸿祎财经年会演讲：AGI发展面临瓶颈智能体和专业大模型将扛起大旗

李杰：一加Ace 5系列是游戏体验最好的直屏手机价格可能最香

经纪业务存多项违规华鑫证券遭警示，涉制度未及时修订、人员管理不到位等

全站最新

OpenAI最强推理模型o3发布：AGI能力暴涨接近人类水平

高通打赢芯片诉讼！未违反Arm许可协议

又一造车新势力完了创始人全跑路

联想笔记本都卷成这样了？预定年度最佳创新

华为开源鸿蒙新版发布！代码超1.2亿行

玩出热雪，Evina在吉林北大湖与ZOL开启盛大狂欢

玩出极速更热雪三星品牌存储北大湖潮好玩惊艳大批雪友

折叠屏2024的新东西、好东西、旧东西

热门推荐

OpenAI最强推理模型o3发布：AGI能力暴涨接近人类水平

高通打赢芯片诉讼！未违反Arm许可协议

又一造车新势力完了创始人全跑路

联想笔记本都卷成这样了？预定年度最佳创新

华为开源鸿蒙新版发布！代码超1.2亿行

玩出热雪，Evina在吉林北大湖与ZOL开启盛大狂欢

玩出极速更热雪三星品牌存储北大湖潮好玩惊艳大批雪友

折叠屏2024的新东西、好东西、旧东西

恒瑞医药知天命，孙飘扬“人无再少年”

小菜园成功上市，成长性如何

联想黄智信：2025年将是联想moto的复兴之旅

聚焦兴趣消费打造中国品牌出海新范本，名创优品入选任泽平年度演讲案例

飞天云动荣耀“兴智杯”AI+文旅奖，携手重庆两江共绘元宇宙数字文旅蓝图

网易易盾发布业内首个内容安全成熟度模型，助企业提升风险防范及应对能力

共筑金融云上新核心华为主机上云方案亮相2024金融主机上云工作会议