当前位置：首页 » 资讯 » 新科技 » 正文

推理王者o1到底怎么落地？

IP属地北京 编辑：周琳蓝鲸财经 时间：2024-11-08 18:38:10

文｜脑极体
完整版o1“被泄露”，成了上周AI界的大新闻。
9月13日，OpenAI发布了传说中代号“草莓”的全新模型系列的预览版o1 preview，随后又上线了o1 mini。o1模型系列，能够模仿人类思维过程“慢思考”，提升了AI的逻辑推理能力，成为AI模型领域的王炸，牵动着整个行业的神经。
而就在上周，有不少用户突然发现，能在ChatGPT官网上用到完整版o1了。奥特曼更是不小心“登错账号”，在社交媒体宣布“o2即将登场”。
从o1 preview到o2，这一系列模型，炸裂归炸裂，但所谓的推理能力好像并没有真正融入产业应用，以至于大家都有种狼来了的感觉，开始猜测这不过是奥特曼的又一次宣传噱头。
比如，就有网友觉得完整版o1被释放，并不是“不小心”，而是“精心策划”的炒作，奥特曼“登错号剧透o2”也是装的。
如何避免真实的技术价值沦为“狼来了”的戏码？答案就是，别让模型能力成为空中楼阁，而是加速落地到产业中。
到底哪些场景才能充分发挥o1“慢思考”的技术潜力呢？本文就来找找产业化落地的路子。
落地产业，前提是正确认识到技术的价值。o1模型系列与老前辈们的最大区别和价值究竟是啥呢？就是慢思考。
我们都知道GPT-4o啥的处理些日常琐事还行，但时不时就会犯点小迷糊，算个小学数学题加减法都错漏百出。而o1就像是经过严格训练的学霸，专克逻辑推理、复杂任务难题。前不久的OpenAI伦敦开发者日上，完整版o1的五大能力包括：函数调用、开发者message、流式传输、结构化输出、图像理解。
如果说4o的数学水平是高中生程度，那么9月发布的o1-preview就有大学生水平了，即将发布的o2在GPQA研究生级别基准中取得了105%的成绩，未来是妥妥的研究生了。
而上述能力靠的就是o1的独门秘籍——慢思考。
已知人脑有两种模式：一种是快思考，就是咱们平时“一拍脑门”那种凭直觉、靠经验的快速决策；另一种是慢思考，指的是在解数学题、进行科学推理需要花时间、费精力去琢磨的思考模式，更注重逻辑和理性分析。
o1通过学习人脑深思熟虑、稳扎稳打的思考模式，o1采用强化学习+思维链，把复杂问题拆成小块，一步步来，直到得出最准确的答案，极大地提高了模型的推理能力。
研究生级别的学霸o1模型系列，给AI界带来了全新的可能。但如何将“慢思考”的技术潜力真正转化为实际应用，让o1成为推动产业进步的重要力量？还是一个需要进一步探索的话题。
产业大不同，落地有先后。按照落地的难易程度，我们可能会看到类o1的“慢思考”能力，在以下产业逐步应用开来。
坚实的数字化基础、对新技术的高接受度、强大的付费能力，这些特性使得金融成为大模型技术落地的理想场所。
几乎所有的大模型厂商，都将金融行业作为业务开拓的第一站。然而，在金融与大模型的结合过程中，由于大模型的推理能力不强，加上幻觉问题，导致大模型在金融领域的复杂应用中表现并不理想。
此前，大模型在金融行业的应用范围，主要是一些容错率较高的浅层应用上，如智能客服、报表文档助手。而风控、信贷、投资分析等的严肃生产力场景，需要对多种模态的数据，进行深入分析和推理，决策质量要求极高。这些核心业务中，大模型在工作流中发挥的价值相对有限，主要还是得靠人类专家来做。
一位银行从业者表示，客户需要我们的理财分析师给出犀利、专业的观点来帮助决策，而大模型只会泛泛而谈，没什么参考价值。
人人都希望由专业的金融从业人员来服务，如果AI模型能够在一些容错率低的严肃场景中应用，只需要少量人工干预、监督和验证，那么专业人士的时间精力，不就可以解放出来了吗？随着“慢思考”逻辑推理能力的出现，这一期待真的有可能实现。
基于类o1的逻辑推理能力，我们有望看到AI在金融核心业务中承担起专家角色，发挥更重要的作用。比如像专业审核员一样读征信报告、看账单流水，甚至能解读网络大数据，思考和捕捉数据之间的关联，并生成风险判断的依据和结论。
又或者像专业分析师一样，根据用户需求进行个性化的产品设计，缜密分析投资策略，给出理财、投资、投保等建议。
慢思考可以让AI从浅层、边缘、单一的场景，进入到复杂、核心、高价值的核心业务中，突破大模型在金融行业的价值上限。
“o1实在太强了……我的博士作业做了20个小时，被它3分钟思考就拿下了。刚读博就出这个，感觉人生都灰暗了[流泪]。”逻辑推理能力达到研究生水平的o1模型系列，让不少人类研究生、博士生感到了切实的危机。
但用一句流行语来说，“o1不是来拆散科研这个家，而是来加入这个家的”。
近几十年来，神经网络算法已经被广泛应用于科研领域，从宏观世界的天文探索、引力波探测，到微观世界的蛋白质折叠、同步光源等，数据科学和算法工程提供了大量的操作手段，帮助科学领域的探索性课题取得突破。AI技术已经成为科学研究不可或缺的一部分，AI4S的大趋势不可阻挡。
面对这个过程，一位高校力学老师曾对我们说过一个比喻：AI和力学的结合，就像是成功的婚姻才刚刚开始，会有甜蜜期，也会有磨合期。
传统模型算法虽然有强大的计算能力和手段，但缺乏深入的逻辑推理能力和对科学原理的深刻理解，面对复杂的科学问题时，往往力不从心，难以提供准确且可靠的解决方案。思考方式跟追求严谨的科学家们大相径庭，此前的AI4S全靠人类迁就。
而o1慢思考强调的逐步分析、深入推理，这种思考方式与科学研究的本质不谋而合。具备慢思考能力的AI模型，相当于掌握了硕博们的学习方法，可以逐步拆解问题、分析数据、反复验算、推导结论。
在科研领域，类o1模型可以作为科学家们的“科研伴侣”，扮演好几种角色：
1.灵感缪斯。在一些经典的科学问题，或者已经成熟的科研结果上，科学家们往往还要开发新方法、新理论。这个过程中，AI的逻辑推理能力可以发现数据之间的潜在联系和规律，提出新的假设和预测，为科学研究开辟新的道路。
2.科研助理。随着科学领域“低垂的果实”被摘完，科学家们要去解决更复杂的问题。以力学为例，在深水探索任务中，不仅要做简单的维度对比，还需要做更细节的探索研究，包括复杂的洋流环境、水下潜入等复杂动作，这些是传统的流体控制方法所难以预测的。而逻辑推理大模型可以在这类非线性、高维度的科学问题与科研应用上，有更好的性能表现。比如马克思普朗克研究所的量子物理学者Mario Krenn，就展示了o1-preview正确完成计算的复杂量子物理问题。
3.工程师助理。科研目的不是简单地开发新方法、新理论，最终成果要转化到工业界，去解决工业、生活中的现实问题，这就不单单需要新颖的想法，还需要技术的安全性、成熟度、容错率等。这时候，具备逻辑推理能力的大模型，可以在工业场景中处理复杂问题，降低幻觉，如同工程师助理一样，减少实际应用中的故障率。
无论是容错率较高的创造型任务，还是容错率较低的工程类任务，拥有“慢思考”能力的大模型，都会是一名更得力的助手，与科学长相厮守。
ChatGPT的第一个应用案例，就是帮学生写作业，为此遭到了各国多所学校的严格限制。这种应用场景虽然不可取，但说明了一个道理：充斥着大量文本、重复任务的教育行业，是大模型落地的绝佳场景。
过去一年多来，“大模型+教育”这个新风口的爆发，也证实了教育产业AI化的价值切实存在。但真正落地的应用，主要还是以AI口语对话、AI批改作文、LLM翻译、中英文写作等功能为主。
一旦覆盖到复杂的学科内容，比如数学、物理、化学等，连“9.9跟9.11谁大”都搞不清楚的GPT们就集体熄火了。国产大模型也同样如此，一位国产数学大模型的工作人员告诉我，做数学题的正确率是60%。试问哪个家长敢让数学成绩刚及格，还热爱“胡说八道”的AI给孩子当家教呢？
逻辑推理，限制了模型的能力边界。而模型的能力限制，又进一步影响了智能教育硬件、个性化AI在线辅导服务的市场化推广步伐。可以说，解决大模型+教育的商业化问题，最关键的是问技术要出路，这也是慢思考模型的价值所在。
首先，具备慢思考的大模型，数学推理的能力飞跃，数学正确率更是肉眼可见地高涨。在刚刚结束的2024 IOI信息学奥赛题目中，o1的微调版本在每题尝试50次条件下取得了213分，属于人类选手中前49%的成绩。如果允许它每道题尝试10000次，能获得362.14分，可以获得金牌。对于有算力、有开发能力的教育大模型公司来说，完全有可能开发出数学能力很强的垂类大模型，提供面向复杂学科或高年龄学段的AI辅导功能。
其次，叠加了多模态的推理大模型，进一步开拓教育应用。在泄露出来的完整版o1，已经具备多模态能力了，支持上传附件，或直接识图。有网友将一道普特南数学竞赛的证明题截图发给o1，就被具有图像推理能力的o1成功搞定。这意味着教育类大模型不再局限于文本、语言对话类的功能，可以跟物理世界产生交互，比如拍照答题、实时视频问答等，不管学生问的是现实世界中的什么问题，AI都能大概率找出正确答案。
更为关键的是，由于慢思考的模型不再一味追求参数、追求scaling law，而是着重于提高推理能力和认知效率。也就是说，面对一个复杂问题或任务，AI大模型开始以“更聪明”的方法，而非“力大飞砖”的笨办法，模型的参数规模更小，更便于在硬件终端上部署，在同样的终端配置下，推理大模型可以表现更出色，这有利于AI学习机等教育类智能硬件的普及，为教育行业带来新的增长点。
虽然慢思考的类o1大模型还是个新鲜事物，OpenAI噱头大于实际的营销手段也招人吐槽，但可以肯定的是，更强逻辑推理能力的大模型，将成为模厂与行业在智能化领域所必须拿下的高地，去解决此前LLM+行业的结合止于浅层应用、难以应对复杂业务的产业化痛点，进而打开大模型的商业化空间。
究其核心，是AI大模型开始走出语言类任务的局限，可以在容错率低、专业性强的严肃工作中发挥价值。
专家型人才稀缺的行业场景，往往也是高价值所在。懂得慢思考的大模型，正慢慢行业专家化，这让大模型更有价值，也让会思考的人更有价值了。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

余承东解锁华为Mate 70新技能：AI隔空传送

宋雨琦代言！OPPO Reno13系列未发先火：超80万人预约

俄罗斯一国产客机降落时重着陆：起落架折断、发动机起火

《龙腾4》等3A大作接连失败！前Xbox高管直言：开发商已不再听取玩家声音

网易云音乐呼吁QQ音乐停止剽窃式「创新」

REDMI K80 Pro影像对标小米15 产品经理：除了徕卡能给的都给了

三星 Exynos 2600芯片前景堪忧：良率挑战严峻，有被取消量产风险

羽绒被造假！刚刚，官方通报！

多只创新药港股，突然大涨！

开票方便了！12月1日起全国推广应用数字化电子发票：支持PDF、OFD格式

开普云在世界互联网大会发布“星算计划”，赋能空地一体算力新时代

荣耀300系列代言人曝光杨洋+虞书欣帅哥配美女

机构：2024全球笔记本出货预计为1.74亿台年增3.9%

新代言人亮相！荣耀300官宣杨洋虞书欣代言 12月2日全新发布

哪吒汽车回应10亿股权被冻结3年：引发行业误读现已解冻

哪吒汽车回应“10亿股权被冻结”：法院已解除公司财产保全措施

浩鲸科技杨名出席2024年世界互联网大会乌镇出海咖荟

国内游戏打破海外垄断！《黑神话：悟空》成Steam平台收入前十名

游戏《绝地潜兵2》获金摇杆奖三项提名计划年底发售

《黑神话：悟空》获英国BAFTA奖提名玩家：真不愧是神作！

《博德之门3》拯救拉瑞安工作室比去年增长近二十倍

售价神低RTX 5090显卡将配32G显存 RTX新作到来

激光·十年｜NEC激光放映机的算法“黑科技”

Sound Blaster G8:重新定义多功能性

小马智行“流血”IPO：估值较两年前85亿美元腰斩，近三年累计亏损26.59亿！自动驾驶企业扎堆上市，10企9亏

A股午评：三大指数临近午盘跳水下跌，沪指0.36%！短剧游戏概念拉升，超2900股上涨，成交额9300亿；机构解读

A股午评：三大指数再次跳水，创指跌0.55%北证50跌1.17%！固态电池，旅游股活跃！超2900股上涨，成交9489亿缩量252亿

全站最新

余承东解锁华为Mate 70新技能：AI隔空传送

宋雨琦代言！OPPO Reno13系列未发先火：超80万人预约

俄罗斯一国产客机降落时重着陆：起落架折断、发动机起火

《龙腾4》等3A大作接连失败！前Xbox高管直言：开发商已不再听取玩家声音

国中水务披露筹划重大资产重组进展，已被罚投资者索赔麻烦待解

李想或将获数亿奖励，李斌承诺2026盈利，何小鹏预测淘汰赛

网易云音乐呼吁QQ音乐停止剽窃式「创新」

REDMI K80 Pro影像对标小米15 产品经理：除了徕卡能给的都给了

热门推荐

余承东解锁华为Mate 70新技能：AI隔空传送

宋雨琦代言！OPPO Reno13系列未发先火：超80万人预约

俄罗斯一国产客机降落时重着陆：起落架折断、发动机起火

《龙腾4》等3A大作接连失败！前Xbox高管直言：开发商已不再听取玩家声音

网易云音乐呼吁QQ音乐停止剽窃式「创新」

REDMI K80 Pro影像对标小米15 产品经理：除了徕卡能给的都给了

三星 Exynos 2600芯片前景堪忧：良率挑战严峻，有被取消量产风险

羽绒被造假！刚刚，官方通报！

多只创新药港股，突然大涨！

开票方便了！12月1日起全国推广应用数字化电子发票：支持PDF、OFD格式

开普云在世界互联网大会发布“星算计划”，赋能空地一体算力新时代

荣耀300系列代言人曝光杨洋+虞书欣帅哥配美女

机构：2024全球笔记本出货预计为1.74亿台年增3.9%

新代言人亮相！荣耀300官宣杨洋虞书欣代言 12月2日全新发布

哪吒汽车回应10亿股权被冻结3年：引发行业误读现已解冻