业内普遍认为,对答式的聊天机器人,最多能够提供一些简单的工作帮助,执行复杂工作,最终还是需要通过搭建 AI Agent 的工作流。
但,Agent 的搭建,有门槛,不仅有技术上的门槛,更有认知思维、结构化能力上的门槛,并不是所有用户,都有把工作拆解成详细 SOP 的能力。在 Manus 的逻辑下,创建工作流 SOP 这个最难的事情,由 AI 来完成,于是,每一个用户,通过简单的自然语言对答,就能获得接近于 Agent 的产出结果,几乎就是直接可用的程度。
今天全网刷屏的文章,主要还都是 Manus 功能的简单介绍,熟悉我的朋友们都知道,我一贯主张不仅要分析产品,也要深挖产品背后的逻辑,以及其对应着的趋势。所以这篇文章,我们就基于 Manus,对 AI 产品和 AI 落地,进行深度分析和预判。
Agent 进入第三阶段,生产力变革即将到来
Manus 的特点是,它能够自主进行工作流的拆解,然后按照拆解的顺序,每一步都调用最合适的大模型,进行任务处理。
就好像一个非常卷的 J 人同事,每一项工作,都提前拆出详细的执行计划表,然后按照计划表严格执行,最终做出来的效果,肯定不会差。
比如让 Manus 整理一份 OpenAI 的组织架构图,它不会直接去贸然干这个事儿,而是会先进行一个任务拆解,来明确,做好这个事情,都需要哪些具体的细致的步骤,然后根据自己拆解的步骤,再逐项自动执行任务,最终产出用户“直接可用”的结果。
这个“直接可用”太重要了,如果过去真的深度使用过 AI,都知道,之前的聊天式 AI,看起来洋洋洒洒一大段回复,但是实际要用,就发现很多地方不符合现实,还得人工大改。
所以 Manus 的工作逻辑,其实就是 Agent,通过完成工作流的拆解,解决具体实际的问题。
Agent 中文名叫做 AI 代理或者智能体,说白了就是一个能按照工作流,执行实际的、专业的工作的机器人,解决实际的具体问题,让它按照适配公司业务的流程,进行各种具体的工作,就好像一个真正的同事一样。
如果只是在 AI 对话框中进行简单的对话,AI 能够进行的工作很有限,AI 的产出物也不太可控。回归到我们实际的工作中,任何工作都有一个流程和标准的限制,才能让产出的结果,达到预定的标准。
比如「为公司业务写一条小红书」这项工作,如果让 AI 直接进行工作,产出的结果基本是不可用的,因为命题太大了,小红书运营包含着多种不同的工种环节,很难通过一句话,就完成一个复合度相对较高的工作。
那如果想要 AI 完成好这项工作,其实得给 AI 规定好工作步骤:
学习公司业务的知识库,了解公司的业务情况和过往内容 通过可联网的大模型,收集与业务相关的今日热点新闻 通过大模型分析有哪些可以和业务结合的选题 AI 为选题生成文案 通过大模型为文案的配图,创作一个生图的 prompt 调用文生图的大模型,使用 prompt,生成配图 将文案和图片手动发布至小红书 通过发布的笔记链接,抓取点赞收藏评论数据,进行数据分析在每个环节,AI 都只解决一个具体的问题,然后把许多个 AI 的工作串起来,成为 AI 工作流。
所以,对话聊天的 AI,最多只是提供些灵感,真正要解决生产力的问题,就必须得靠融合了 SOP 的 AI Agent。
这也是我一贯的观点,协作体系是人类社会改变生产力的利器,AI 只有通过工作流,才能够完美融入人类的生产关系中。
Manus 的出现,意味着 Agent 的发展,实际上进入第三阶段:
在第一个阶段,ChatGPT 这样的对答式机器人,通过一问一答的方式,逐一解决问题。这个过程中,人类依然是主导,能否把 AI 用好,取决于提问人的水平,只有思路非常清晰、结构化能力非常强的提问人,才能让 AI 解决实际问题。
第二个阶段,通过“扣子”这样的智能体平台,搭建分步骤执行的 Agent,这一阶段也是当前 AI 应用层落地的主要方式。既然不是所有人都能通过 AI 问答,解决实际问题,那我们就把能解决问题的步骤,固定下来,让 AI 每次都按照验证过的步骤逐一执行,并且集成多种不同能力的 AI,让 AI 只在自己最擅长的环节做事,这样一来,只要有一个人成功,那么其他人不需要结构化能力,也能够达到同样的效果。
第三个阶段,在今天早上看到了黎明,就是以 Manus 为代表的通用 Agent。拆解工作流这个环节,也让 AI 替代,用户又回到了简单的问答模式。但问题简单,AI 执行的过程并不简单,通用 Agent 能够按照工作流的方式,高质量完成问题,让产出结果,达到可用状态。
如果说过去 AI 大模型的火爆,大多数人只能凑个热闹的话,毫无疑问,通用 Agent 是让所有普通人,也能够在具体工作中,用上易用的 AI,解决真实世界的实际问题。只有解决实际问题,AI 对于生产力和生产关系的变革,才会真正来临。
分发 AI 的 AI,将成为 AGI 的入口
在 Manus 开发团队的介绍中,Manus 被称为“多智能体系统”。
什么是“多智能体系统”?其实就是一个系统里面,集成了多个大模型,然后由一个调度中心,根据不同的任务,调用最合适的大模型。
几家头部大模型公司,都在不断推出更强的 AI 大模型,前一天某个大模型刚刚登顶第一,转天就被下一个大模型超越,城头变幻大王旗,你方唱罢我登场。
但是,单纯的堆参数和跑分,其实与真实使用,还是有很大的差距。实际上,每一家的大模型,都有自己所擅长的领域,比如 Claude 极为擅长编码、DeepSeek 的推理模型对于中文的控制很强、豆包大模型对于语音识别独步世界、可灵的视频模型非常领先。
既然短期之内,很难有样样都强的“水桶模型”,那何不根据任务的实际情况,让大模型协作起来,让他们只做自己擅长的工作?这便是“多智能体”思路的来源。
事实上,在之前的探索和尝试中,就有过这样的先例。
前不久,Berkeley 伯克利搞了只有 7B 参数的小模型,在 Arena 全球模型排行中拿到了 1400 分,这个分数,用了 20 万张显卡训练的 Gork3,就也才刚达到这个水平。
这个 7B 的小模型,其实就是一个分类器,它只做一件事,就是把用户发给他的提问,进行分类筛选,然后去指挥 GPT、Gemini、DeepSeek 这些"大模型"干活,堪称 AI 届的牛马领导。
这其实也是 Manus 的逻辑,通过一个超强的分类系统,集合擅长不同领域的大模型,一起处理,最大限度解决用户的实际问题。
AGI 的未来,一定不是单一模型一统天下,而是做好分工,融汇贯通。本质上,现代公司的组织结构,就是在构建如同机器一般的协作结构,指望一个 AI 来完成所有工作,无异于指望一个员工就撑起整个公司。
在这场变革中,中国将站在世界中心
这不是营销号那种无脑乱吹,而是逻辑推理后的判断。
逻辑是两个:
1.中国有无穷多的应用场景和商业模式的积累,首先,AI 只有落地应用才有真正的价值,其次,最开始的 AI 可能诞生于实验室,但只有真实实践中,才能创造越来越强的 AI。
2.几十年辛苦播种,今朝终于开花结果。国民基础教育,纵观历史几千年,从未有过现在的高度和深度。而 AI 的根本,依然是人才,经过几十年的基础教育,中国的人才密度,已经超越世界上大多数国家,完全能和美国掰一掰手腕。
很多事情,都是量变引发质变的结果。
2022 年底,ChatGPT 横空出世,惊爆世界。同时,这也意味着,AI 技术的大模型路线,完全替代了过去规则算法和知识图谱的 AI 路线。
中国哗然,大洋彼岸的美国,在 AI 军备竞赛上,居然领先这么多。当时,大多数人对于中国的 AI 发展持悲观态度,算力显卡、技术封锁,中国 AI 技术的前途,确实阴晴不定。
但站在 2025 年早春,这种阴霾已经一扫而光,中国 AI 的发展全球瞩目,代表基座大模型能力的 DeepSeek 让世界侧目,如今,在应用层大放光芒的 Manus,同样来源于中国。
Manus 背后的创始人肖弘,是华中科技大学 2015 届毕业生,在之前创业做过「壹伴助手」和「微伴助手」。
这个团队还有一款更知名的产品,就是去年火爆全网的 AI 助手 Monica。这是一款浏览器插件起家的 AI 应用,通过非常敏锐的需求洞察,让用户在浏览器中,使用 GPT 4o、DeepSeek R1、Claude 3.7 等模型,进行一些非常具体的工作。
有人说这是套壳 AI,可 Monica 的理念,就是将 AI 前沿技术,找到应用层的落地方式,实现 AI 的真正落地。极致的套壳,同样也是牛?!在这样的理念下,这支团队,又搓出了 Manus。
我们很欣喜地看到,Manus 的出现,是让普通人也用好 AI 的又一个大进步。
我下午看到,有不少人对于 Manus 的指责,指责 Manus 在宣传和推广方面的积极,认为 Manus 所谓的超强能力,是在营销,想要成为下一个 DeepSeek。
但事实上,Manus 和 DeepSeek 本身就是两个不同的产品,一个专注于更好的落地应用,一个专注于基础模型的技术突破,这都很有价值。我想起在我在几年前写过的一句话:
科学普及与科技创新同等重要。
这只是一个理念,只是一个起点,保持谦逊,多往前看。