@apurvasgandhi: 子代理是一个有前景的推理时间缩放原语:• 扩展智能体的工作记忆• 分而治之解决难题• 通过并行执行更快地解决问题…

X AI KOLs Timeline 论文

摘要

RAO(递归智能体优化)是一种端到端强化学习方法,用于训练大语言模型智能体生成、协调并委托给自身的递归副本(这些副本本身也可以生成其他智能体),将递归推理转化为可学习的能力。

子代理是一个有前景的推理时间缩放原语:• 扩展智能体的工作记忆• 分而治之解决难题• 通过并行执行更快地解决问题但是,我们如何训练模型以充分利用子代理,并确保获得这些收益?我们非常兴奋地发布 RAO:递归智能体优化。RAO 是一种端到端强化学习方法,用于训练大语言模型智能体生成、协调并委托给自身的递归副本(这些副本本身也可以生成其他智能体)—— 将递归推理转化为可学习的能力。1/10
查看原文

相似文章

递归多智能体系统

Papers with Code Trending

本文提出RecursiveMAS,一种将递归扩展原则应用于多智能体系统的框架,以提升协作推理的效率和准确性。与标准基线相比,该框架在多个基准测试中实现了显著的加速和token缩减。

@leerob: https://x.com/leerob/status/2065469795529588940

X AI KOLs Following

Cursor AI 描述了其用于扩展 Composer 模型训练的递归代理系统,该系统使用一组自我管理的代理,在出现问题时向人类发出警报。该系统支持并行实验并加速研究,将研究人员的时间视为最稀缺的资源。

APPO: 智能体过程策略优化

Hugging Face Daily Papers

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。

面向低延迟多智能体工具调用的有状态推理架构

arXiv cs.LG

本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。