当前位置：首页 » 资讯 » 新科技 » 正文

【深度】从Manus到MCP：25年AI的三大新趋势

IP属地北京 编辑：苏婉清钛媒体APP 时间：2025-03-15 17:31:55

文 | AlphaEngineer，作者 | 费斌杰（北京市青联委员熵简科技CEO）
25年开年以来，AI发展如火如荼，DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷，眼花缭乱。
这里我将最近一个月以来的思考总结一下，对25年AI发展趋势做几点预判。
（1）Manus：Agent元年的一次抢跑
Manus推出之后，我们第一时间拿到了体验账号，进行了充分的体验测评。
先说结论：虽然Manus目前还有种种不足，但它的产品设计思路创意满满，值得我们给予充分的肯定。
Manus的核心架构基于“虚拟机+多Agent协同”模式，通过整合多个底层大模型（如GPT-4、Claude 3等）的API，实现任务的动态分配与模型调用。
Manus突破了传统AI助手仅生成建议的局限，实现了从“需求输入”到“成果交付”的端到端闭环。
Manus提出“Less Structure, More Intelligence”的交互理念，通过无代码化的自然语言接口降低用户使用门槛。
与此同时，Manus使用一个外置的markdown文件来管理Agent的任务规划，并且将阶段性的工作成果存储为独立文件，这也是一个非常有趣的创新点。
（2）Manus的不足与缺陷
Manus在MultiAgent的道路上提供了一种非常有趣的思路，但现在依然存在一些显而易见的不足之处。
首先是“幻觉累加”的问题。
Agent的本质是多次大模型问答的串并联。如果单次大模型问答的准确率是90%，串联10次的话，最终Agent回答准确的概率是0.9^10，只有1/3左右了。
在下面的案例中，Manus的任务是针对某上市公司进行财务数据分析。Manus很聪明的import了data_api模块，准备从雅虎提供的接口中调取财务数据。
但是在process_financial_data函数中，manus竟然把revenue、gross_profit等数据直接“硬编码”到了代码中，让人猝不及防。而且经过验证，这里的数据有部分是错误的。
如果原始数据出错了，那么后续无论分析得多么深入、图表做得多么fancy都失去了意义。
Manus的第二个问题是可供大模型调用的工具不足。
下面这个例子中，Manus的任务是写一篇关于“小米Su7”的市场分析报告PPT。
Manus完美的拆分了任务，并且检索了大量新闻，但是最后它无法生成一份PPT，因为它无法调用Office软件。
目前Manus输出的内容形式多为纯文本或者网页，还无法和人类工作流进行完美融合。
Manus遇到的第三个挑战是小院高墙的互联网生态。
互联网上有很多优质信息是存放在“围栏”中的。
比如当我们让Manus去分析比较市面上所有AI智能眼镜的性价比时，它聪明的找到了对应商品的淘宝网页。
但是当Manus想要打开具体产品页面获取价格性能等详细信息时，淘宝判定它为机器人，并拒绝了Manus的访问。
无独有偶，当我们让Manus为一家非上市公司进行出具商业分析报告时，Manus为了获取公司的最新融资进展，访问了Crunchbase数据库。
但是Manus的访问被Crunchbase判定为机器人，随后被无情的拒绝了。
互联网看似公开透明，实则存在大量类似小院高墙的情况，优质信息往往就存放在这些高墙之内，Manus无法直接获取，这无疑阻碍了Manus的工作效果。
尽管有着种种问题和挑战，Manus依然给大家描绘了MultiAgent的巨大前景，打响了Agent元年的第一枪，值得我们给予充分的肯定。
在Manus占据大家视野的同时，海外AI大厂究竟做了哪些技术储备呢？
（3）OpenAI CUA：一个会自主操作电脑的Agent
在今年的1月底，OpenAI发布了由其新模型CUA（Computer-Using Agent）驱动的AI智能体Operator。
CUA模型融合了GPT-4o的视觉能力和通过强化学习实现的高级推理能力，能够将任务分解为多步骤计划，并在遇到挑战时进行在我调整和纠正。
简而言之，CUA就是一个会操作电脑的Agent，它的运作原理非常直白且简洁，如下图所示。
首先，CUA会同时接受两种模态的输入：其一是文本指令，其二是屏幕截图。
CUA会同时处理这两种信息，并且生成一系列动作指令，比如“点击屏幕上坐标为(300,200)的点，并且输入XXX，按回车”。
电脑接受到指令并完成操作后，会将新的屏幕截图与新的任务指令返回给CUA，如此循环往复，直到获得最终答案。
那么CUA目前操作电脑的能力达到了怎样的水平呢？
根据OpenAI的官方测评，CUA在操作电脑和操作浏览器这两个场景上，相比上一代SOTA都有了巨大的性能提升。
但是相比人类而言，依然有着较大的差距。换句话来说，目前顶级的Agent依然没有办法像一个成年人一样正确的操作电脑，但我相信这个现状在今年内就会发生质变。
（4）Anthropic MCP：AI时代下的TCP/IP协议
刚才在分析Manus的缺陷时，提到了“工具不足”的问题。
Anthropic显然也意识到了这个问题，并在去年年底推出了MCP来从根源上解决这个问题。
MCP的全称是Model Context Protocol，它定义了应用程序和AI模型之间交换上下文信息的方式，这使得开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型。
MCP之于AI，有点类似于TCP/IP之于互联网。
MCP有三个重要特点：
当前越来越多的工具及服务开始接入MCP，呈现愈演愈烈之势，包括Google Maps、PGSQL、ClickHouse（OLAP数据库）、Atlassian、Stripe等等。
在Smithery平台上你可以轻松查找不同功能对应的工具及服务。随着越来越多的Server接入MCP协议，未来AI能够直接调用的工具将呈现指数级增长，这能从根源上打开Agent能力的天花板。
（5）2025年AI发展新趋势：后训练、RL、MultiAgent
这里我结合最近几个月以来的观察和思考，总结一下25年AI发展的几点重要趋势。
第一，预训练即将终结，后训练成为重点。
这其实已经是行业共识。去年年底时，Ilya在NeurIPS大会上提到一个重要观点：数据是AI时代的化石燃料，因为我们人类只有一个互联网。
与此同时，在今年DeepSeek R1的论文中，提到了后训练将成为大模型训练管线中的重要组成部分。
第二，针对后训练而言，强化学习将成为主流，监督学习的重要性逐渐下降。
DeepSeek R1带来最重要的启发是：纯粹的RL可能是通向AGI的正确路径。
随着TTS的增加，大模型会自我涌现出复杂的推理行为，而无需刻意引导。
如下边右图所示，横轴是大模型RL的迭代步数，纵轴是单次问答的token长度。我们可以看到，随着大模型RL步数的增加，大模型会自主的从“快思考”变成“慢思考”，从最开始每次回答100个token，到最后每次回答接近10000个token。
DeepSeek团队将这种现象称为“self-evolution”，并认为它是“the emergence of sophisticated behaviors”。
具体是哪些复杂行为的涌现呢？DeepSeek也给出了答案，比如：self-verfication, reflection等。
这个发现对于我们来说有着重要的启发。未来监督学习在AI训练中究竟应该扮演怎样的角色？监督学习是否反而限制了AI解决问题的能力？
是否不应该让AI通过模仿人类的思维方式来获得智能，而是让AI发展出更加原生的智能？
这些问题，都有待整个AI行业通过实践来给出答案。
第三，MutiAgent是确定性的大趋势。
如果将AI和人脑进行类比的话，大模型就像是人脑中的“前额叶”。
众所周知，前额叶主要负责高级认知功能，比如注意力的分配、思考推理、决策等。
但是仅仅有前额叶，大脑是无法处理复杂任务的。我们需要有颞叶来进行听觉信号的解析，需要顶叶进行阅读和算术，需要小脑来进行运动协调，需要海马体来进行记忆索引。
MultiAgent的定义恰恰就是让多个不同的模型之间互相协调，从单独的“前额叶”走向“完整的大脑”，从而处理更加复杂的现实任务。
在这个蓝图中，MCP就起到了非常重要的作用：协调统一大模型与各工具之间的数据通信接口。
（6）结语：抓好扶手，未来已来！
2025年是AI Agent元年，Manus的出现打响了第一炮。
无论是OpenAI的CUA还是Anthropic的MCP都指向了一个共同的未来，未来2年AI的发展速度将非常陡峭。
抓好扶手，未来已来！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

看个文章信息就泄露？信息黑洞疯狂窃取个人隐私

刚刚！3·15曝光：翻新卫生巾、电子签高利贷“砍头息”最高年化利率近6000%......涉事企业回应！

315曝光电子签高利贷，借贷宝人人信被点名

315晚会曝光维修刺客啄木鸟，啄木鳥男装直播间无辜躺枪

315晚会曝光借贷宝人人信电子签高利贷 “砍头息”再现

315曝光大数据获客软件：狂窃消费者隐私信息，每日处理数据达100亿条

315晚会曝光智优AI利用信息黑洞疯狂窃取个人隐私

315曝光电子签高利贷，借贷宝被点名，部分平台已下架

啄木鸟声明：媒体所述虚高收费、小病大修等问题是平台完全责任

人人信遭央视315曝光，年化近6000%，合作方现百融金服、旷视科技、算话征信等

揭秘：AI如何成为骚扰电话的幕后黑手

Fami 通 2024 游戏大奖公布，《黑神话：悟空》《绝区零》等获奖

315晚会揭网络抽奖黑幕，商家靠沉默用户敛财？

突破900元/克，金价创历史新高！还会再涨吗？

315晚会曝光翻新卫生巾触目惊心涉及知名品牌

315晚会曝光一次性内裤徒手制作严重威胁健康

315晚会曝光知名家电维修平台乱收费平台已作回应

315晚会曝光：违规增重虾仁，危害健康的“水”货

电子签高利贷放款人竟不是活人网络金融平台暗藏陷阱

借贷宝央视点名“二进宫”：利率高达2234.69%

啄木鸟回应高价维修：非常关注，确认属实将会对师傅进行严格处罚

2025 年 315 晚会曝光电子签高利贷，最高年化利率近 6000%

央视315曝光啄木鸟维修平台：小病大修、无病乱修

数智赋能，物业新生——京东工业携手物业企业共探供应链数智化新路径

智谱落地模力社区，助力浦东构建大模型产业生态圈

触目惊心涉及知名品牌！一次性卫生用品残次料被翻新二次销售

肌肤安全有隐患宣称灭菌却未杀菌的一次性内裤

全站最新

看个文章信息就泄露？信息黑洞疯狂窃取个人隐私

刚刚！3·15曝光：翻新卫生巾、电子签高利贷“砍头息”最高年化利率近6000%......涉事企业回应！

315曝光电子签高利贷，借贷宝人人信被点名

315晚会曝光维修刺客啄木鸟，啄木鳥男装直播间无辜躺枪

315晚会曝光借贷宝人人信电子签高利贷 “砍头息”再现

315曝光大数据获客软件：狂窃消费者隐私信息，每日处理数据达100亿条

315晚会曝光智优AI利用信息黑洞疯狂窃取个人隐私

315曝光电子签高利贷，借贷宝被点名，部分平台已下架

热门推荐

看个文章信息就泄露？信息黑洞疯狂窃取个人隐私

刚刚！3·15曝光：翻新卫生巾、电子签高利贷“砍头息”最高年化利率近6000%......涉事企业回应！

315曝光电子签高利贷，借贷宝人人信被点名

315晚会曝光维修刺客啄木鸟，啄木鳥男装直播间无辜躺枪

315晚会曝光借贷宝人人信电子签高利贷 “砍头息”再现

315曝光大数据获客软件：狂窃消费者隐私信息，每日处理数据达100亿条

315晚会曝光智优AI利用信息黑洞疯狂窃取个人隐私

315曝光电子签高利贷，借贷宝被点名，部分平台已下架

啄木鸟声明：媒体所述虚高收费、小病大修等问题是平台完全责任

人人信遭央视315曝光，年化近6000%，合作方现百融金服、旷视科技、算话征信等

揭秘：AI如何成为骚扰电话的幕后黑手

Fami 通 2024 游戏大奖公布，《黑神话：悟空》《绝区零》等获奖

315晚会揭网络抽奖黑幕，商家靠沉默用户敛财？

突破900元/克，金价创历史新高！还会再涨吗？

315晚会曝光翻新卫生巾触目惊心涉及知名品牌