报告围绕超越ChatGPT的AI智能体展开,探讨了AI智能体的概念、发展及提升模型性能的多种方法,还介绍了相关研究的应用成果、局限性和未来方向。
1. AI智能体概述:AI智能体是具有感知、规划、推理、反思和行动能力的系统,能处理多模态输入,借助大语言模型(LLM)进行思维链推理,通过调用函数或工具来执行操作。当前AI智能体的发展分为研究、扩展和创新三个阶段,有从简单聊天到完全自主的不同层级。
2. 模型自我改进:传统基于提示的自我改进方法对小型语言模型效果不佳。研究提出将自我改进视为学习任务,借助LLM或Python脚本作为教师模型,编辑小型语言模型的尝试,收集互动记录训练小型语言模型。通过这种方法生成自我改进数据训练模型,在多步骤算术、单词排序、日期理解和逻辑推理等任务上,训练后的模型性能得到显著提升,且交互式“在线策略”数据对提升效果至关重要,但该方法依赖强大的编辑LLM进行监督。
3. 增强模型能力:许多对话任务本质是决策过程,可借鉴国际象棋中的前瞻搜索提升模型能力。基于提示的蒙特卡洛树搜索(MCTS)方法,利用LLM作为策略、模拟和价值评估工具,在说服任务数据集上,相较于基础LLM,能生成更具说服力的策略,提高对话任务成功率,学习到更平衡的策略,但该方法在对话任务之外的扩展及将改进行为反馈到模型训练方面存在局限。
4. AI智能体自我改进:在视觉语言模型处理计算机任务时,由于训练未涉及与计算机交互,面临挑战。R-MCTS(带对比性自我反思的MCTS)方法通过在任务中进行树搜索寻找最佳轨迹,任务后进行对比性自我反思改进未来执行,在VisualWebArena和OSWorld基准测试中,超越了其他搜索算法,取得新的最优成绩。探索性学习通过在R-MCTS树训练中探索、评估和回溯,使GPT-4o在无需增强搜索算法的情况下展现出计算扩展属性。
5. 未来工作与展望:未来研究方向包括运用强化学习方法减少对树搜索的依赖,采用模型预测控制方法降低与环境交互的成本。Arklex提出智能体优先的组织框架,具备混合控制、任务组合、人类干预和持续学习等特性,相比传统对话系统和其他LLM - 基于的智能体框架,在功能上更具优势,有望推动AI智能体在复杂任务处理和动态环境适应方面的发展。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系