当前位置: 首页 » 资讯 » 新科技 » 正文

我对智能体的最新调研:设计形态不同,但背后目标相似

IP属地 北京 编辑:赵云飞 钛媒体APP 时间:2025-03-13 14:07:08

文 | 王智远

大家对Agent讨论的越来越多。

很多人预测2025年会成为Agent元年,甚至称之为爆炸年。不过,Agent概念听起来有点抽象,该怎么定义呢?说简单也简单,说复杂也复杂。

用AI搜索一下,你会看到这样的解释:Agent是一个能感知环境并采取行动来实现目标的代理体。但这又引出一个问题——「代理体」是什么?

换个角度想想就不难理解了。

Agent应该是一个属于你自己的「AI身份」。有了身份,再给它加上「记忆外挂」(比如RAG技术)和「行动外挂」(比如工作流功能),然后结合底层的大语言模型,就形成了一个完整的「代理体」。

换句话说,Agent本质上是一个「智能助手」——它能根据你的需求自动完成任务,像一个贴心的数字分身。

01

为了更好地理解Agent发展,上周我花大量时间调研,发现市面上已经有十八款类似产品,设计形态不同,但背后目标几乎相似。

这些大部分来自国外,我让Grok 3按照类型整理成表格,希望能给你建立一个大视角:

什么是平台Agent?Coze、Dify又是什么?

平台像一个大工作台,上面摆满工具和材料,让你能轻松造出自己的AI助手或者智能工具。

打个比方,你去自助餐厅,不用自己种菜、做饭,直接拿现成的食材和厨具,炒出自己想要的菜就行。Agent平台就是干这个的:帮你开发、管理、运行AI代理(Agent),很多都不需要你懂代码,点点鼠标、拖拖拽拽就搞定。

这样的平台,特别适合想玩AI但不想太费劲的人,比如小店老板、设计师,或者普通好奇的朋友。它的目标就是把AI开发变简单,像搭积木一样。

明白这个,咱们再说说Coze和Dify是啥。

Coze像一个“傻瓜式工作台”,专为新手设计,完全不用编程,点点选选就能做出个聊天机器人。

它最大的优点是简单又快,还能把AI助手直接连到微信上,帮你聊天、答问题啥的。Coze还自带不少小工具,比如让AI去搜网页、生成图片,特别方便。

Dify,稍微高档一些,也是个开发AI代理的平台,但更适合喜欢“定制化”的人。

它是开源的,你可以把代码拿下来,自己装在电脑或服务器上,随心所欲地改;Dify有个直观的界面,能让你设计AI的工作流程,比如:让它先分析数据、再写总结。

它支持很多厉害的大模型(像GPT、Llama),还能连上你的知识库,让AI更聪明。

举个例子,你是个老板,想让AI分析客户反馈,Dify就能帮你上传文件,打造一个专属助手,专门干这活;它更适合有点技术底子,或者想把AI用在复杂任务上的人。

所以,二者的区别是,Coze像“快餐店”,适合弄个小助手;Dify像“高级厨房”,能深度定制,但得花点心思琢磨。一个是新手最爱,一个是进阶玩家的好伙伴。

那么,和Coze、Dify相似的平台还有哪些呢?很多。

国外主打聊天机器人或者对话助手的有Botpress、Voiceflow、Chatbase;像Dify(定制化强)的有n8n、SmythOS、Langflow、Flowise,你都可以把它记下来,搜索并了解下。

02

说完搭建AI的平台,再说说:自主智能体。什么是自主智能体(autonomous agents)?

举个例子:

你想写一份关于顶级无线耳机的市场调研报告,包括耳机功能、价格和用户评价。

这种AI就能自动上网,去各种网站上找资料,比较不同耳机的优缺点,最后还能帮你把报告整理好,做成PDF文件。整个过程,几乎都不用动手,这就是自主智能体。

特点有三个:

一,独立完成任务的AI,不用你一直盯着;二,能理解目标、分解任务并用工具干活;三,在复杂任务上表现不错,但偶尔得看看,免得出错。

表格中的几位,都是非常出名的自主智能体。他们分别来自于哪里?能做什么呢?

AutoGPT是Significant Gravitas公司开发,自主智能体里“老大哥”。能自己上网、写代码、做研究,适合想省事又想要好结果的人,懒人福音。

AutoGLM基于GLM模型改的,主要擅长语言任务,比如写文章、翻译,适合文字工作比较多的人。Agent-S是一个开放代理框架,像个灵活管家,能随机应变,做各种动态任务。

OpenAI的Operator,出自于OpenAI家族,技术硬核;主要用来自动化网页操作、处理多步骤的任务;昨天他们刚发了新的Assistants API,以后会取代它,演示里还能帮你自助购物、查电商库存。

BuffGPT是GPT增强版,基于大模型的AI平台,能帮你搭各种应用生态,构建工作流、编排多个智能体、标注数据、训练模型啥的,特别适合用低代码开发工作流。

所以,这几个产品区别在哪?

AutoGPT名气大,功能通用;AutoGLM擅长文字类任务;Agent-S很灵活,能应对各种动态任务;Operator是OpenAI原生产品;BuffGPT更像一个工作流平台;总之,各有各的专业领域和擅长的场景。

综合代理(comprehensive agents)也叫通用AI代理,能适应好多不同的场景。

想象一下,你有个AI助手,能帮你写邮件,还能安排会议,甚至研究市场趋势,啥都能干。这就是综合代理:一种能干好多不同事情的AI工具。

OWL是这类平台的代表。你可以用它建一个能干各种活的AI助手,特别适合要多功能支持的人。我觉得,它有点像钉钉的AI助理,对了,只局限在钉钉端内。

再说说云服务(cloud services)。

这是把AI助手放在网上,你不用自己安装,直接用浏览器就能用。比如Google Cloud AI、HPE Private Cloud AI,特点是能扩展、用起来方便。

CloudAI就是一个云平台,它提供AI能力,让你能轻松用上AI助手。现在国内很多大企业都在布局这方面。说到这儿,我想到一个问题:为啥要用云服务的智能助手呢?

举个通俗的例子:修图。

以前用iPhone拍完照片,想美颜一下,得打开美图秀秀。现在有Cloud AI,只要右上角的“编辑”,再点一下“一键修图”,它就搞定了。

因为背后是AI在云端跑,帮你处理。这是我理解的CloudA。当然,它不光能修图,还能处理语音、翻译、分析数据等等。

03

Flowith并不陌生。为啥我把它放到工作流自动化里呢?因为从你开始问问题,到拿到最后的结果,整个过程都在Flowith里完成,不用来回切换好多软件。

所以,工作流自动化是:

自下而上看,从有想法开始到把一堆想法整理成一个文章,在AI的帮助它,能顺利自然的把流程跑完。

百度自由画布产品形态和它很像,都想把复杂的工作流程简化。不过,我觉得,国内这类产品还得发展一段时间。毕竟,技术还在改进,大家习惯也在慢慢适应,离真正好用还有点距离。

再说说认知智能体(cognitive agents)和语言处理智能体(language processing agents)。

假设你是老板,手头有一份客户反馈,想知道大家是不是喜欢你的产品。交给认知智能体,它能看懂反馈,分清楚哪些是夸你的,哪些是吐槽的,还能总结出客户最在意的地方。这些活儿它都能自己搞定,不用你一句句教它。

这就是认知智能体。

COG agent是一个大模型技术,它靠视觉模型工作,主要能看懂界面。你给它一张手机屏幕截图,说“帮我点开设置”,它就能认出按钮,自己操作。现在智谱GLM—PC就用了这种模型。

理解了它,再看语言处理智能体,就更简单了。

它专门搞语言AI,主要本事是理解和生成文字。翻译、写作、聊天,这些它都能干。

LangFlow为语言任务设计。你可以把它想象成一个“拼图游戏”,里面有好多小模块,只需要把它们拖过来、放进去,就能组合出你想要的功能。

所以,二者区别在哪?

CogAgent偏视觉和推理,像看图参谋;LangFlow专注文字处理,是文字助手。一个管看图,一个管写字。

开源智能体(open source agents)是一种大家都能用的AI工具。代码公开,谁都可以下载、改改,还能分享给其他人。

特别灵活省钱,因为有好多人都在帮忙维护,所以,特别适合爱捣鼓的人,或者手头预算不多的团队。

多智能体框架(multi-agent frameworks)好像一个“指挥系统”,能让好几个AI一起合作,分工完成复杂的任务。

OpenManus是metaGPT团队做的开源智能体。只用了三个小时就搞出来了,说平台Manus AI的;厉害之处在于,能自己把任务拆开,用工具去完成。

最大的特点是“像乐高积木一样”,随便拼装功能,特别适合想自己动手搭AI的人。

AutoGen是微软出的多智能体框架,也是开源的。它能让多个AI开会;比如:你说“帮我写个小程序”,那一个AI写代码,一个检查错误,另一个优化速度,聊着聊着就搞定了。

它们有啥不一样呢?说白了,一个是单兵作战的DIY工具靠自己玩;一个是团队教练,能管一帮AI来干活。

04

最后说说任务管理(task management)智能体和自动化工具(automation tools)。

什么是任务管理?

顾名思义:用AI帮你管事情,从安排任务、盯着进度到提醒大家,全都能搞定。

Taskade AI Agents就是这种工具,来自Taskade团队,能自己生成任务清单、排优先级,还能跟团队协作。

想象一下,你是个项目经理,手上有十几个任务,要安排团队成员去干。这时,只需要对Taskade AI Agents说:“帮我把任务分给组员,还要提醒他们截止日期。”

它就会自动把任务分给合适的人,快到截止日期的时候还会发消息催一下。整个过程你都不用操心,它会把所有任务都安排得明明白白。

而自动化工具又是什么?即:用AI把重复的、烦人的活儿变成自动的,还能把不同的软件连起来,让它们自己完成流程。

举个例子:

每天都要把客户发来的邮件里的订单信息手动输入到表格里,是不是很烦?这时候,可以用Zapier AI Agents。只要设置一个规则:“收到新邮件,就把订单信息自动填到Google Sheets。”

这样,它就会自己干活,最后,说不定还会给客户发个确认邮件;Zapier AI Agents是Zapier公司做的,能连接7000多个不同的应用。

再看看国内的情况。飞书多维表格也有自动化功能,但它没有Zapier AI Agents那么强大的外部链接能力。也就是说,你用表格做完重复任务后,没办法直接发给生态外部的客户。

而Taskade AI Agents更像下一个阶段的钉钉AI助理,对着它说说说话,自动形成任务,快到时间时,还能提醒谁,帮你排好优先级。

所以,这两者有啥区别?

Taskade AI Agents主要管任务,帮你安排人干活;Zapier AI Agents主要管流程,是个“连接大师”,专门负责让不同的软件配合起来;两款国外产品形态不同,本质也有区别,一个管人干活,一个管工具配合。

我们再来总结下:

平台Agent有两种:一种像快餐店,简单方便,适合普通人使用;另一种稍高档,功能更强大,适合公司和专业用户。

自主智能体特点是:你把任务交给它,它自己就能完成;通用AI代理则可以跨平台协同工作。

CloudAI是把AI放在云端,方便使用;工作流自动化是从一个想法开始,到顺利自然地完成整个流程;认知智能体可以自己思考,辅助你做决策。

开源智能体是把代码公开,你可以下载后自己修改和使用;多智能体框架是一个“指挥系统”,能让多个AI一起合作完成任务;任务管理智能体主要负责管理任务;自动化工具则是管理流程,让不同的软件配合起来。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新