Evoflux: 针对轻量级智能体的可执行工具工作流的推理时演化
摘要
Evoflux 在推理时使用进化搜索来修复轻量级语言模型中失败的工具工作流,相比微调方法显著提升了执行可行性。
查看缓存全文
缓存时间: 2026/06/12 06:51
论文页面 - Evoflux: 面向紧凑代理的可执行工具工作流的推理时演化
来源: https://huggingface.co/papers/2606.12674 发布于 6月10日
·
提交者 https://huggingface.co/LeoYML
Leo Y (https://huggingface.co/LeoYML) 于 6月12日
摘要
Evoflux 使紧凑语言模型能够通过使用演化搜索在推理时修复失败的计划,从而更可靠地执行工具工作流,与传统微调方法相比,显著提高了执行可行性。
紧凑语言模型 (https://huggingface.co/papers?q=Compact%20language%20models) 降低了工具代理 (https://huggingface.co/papers?q=tool%20agents) 的成本、延迟和部署风险。然而,MCP 风格的工具使用 (https://huggingface.co/papers?q=MCP-style%20tool%20use) 需要的不仅仅是孤立的函数调用:代理必须从实时目录中发现工具,满足模式,跨中间输出保留依赖关系,并将最终响应基于已执行的证据。小型规划器通常会生成看似合理的工作流图 (https://huggingface.co/papers?q=workflow%20graphs),但在工具解析、参数验证、依赖跟踪或执行时失败。我们认为,这种失败模式很难通过小规模语料蒸馏来处理。几百条教师轨迹可以教授工作流格式,但很少涵盖在变化的工具目录中修复失败计划所需的恢复行为。我们引入了 Evoflux,一种推理时演化搜索 (https://huggingface.co/papers?q=evolutionary%20search) 方法,它将紧凑工具使用视为可执行工具工作流的修复。它通过结构化编辑 (https://huggingface.co/papers?q=structured%20edits)、执行反馈 (https://huggingface.co/papers?q=execution%20feedback)、自适应强度 (https://huggingface.co/papers?q=adaptive%20intensity)、元引导重新设计 (https://huggingface.co/papers?q=meta-guided%20redesign) 和多样性剪枝 (https://huggingface.co/papers?q=diversity%20pruning) 来演化类型化工作流图 (https://huggingface.co/papers?q=workflow%20graphs)。在涵盖实时 MCP 服务器和 250 个工具的保留 MCP-Bench 任务上,Evoflux 将小型规划器的执行可行性从大约 3% 提高到 17-24%。相比之下,在相同搜索挖掘数据上的 SFT (https://huggingface.co/papers?q=SFT) 和 SFT (https://huggingface.co/papers?q=SFT)+DPO (https://huggingface.co/papers?q=DPO) 要么持平,要么表现不佳,要么性能崩溃低于零样本水平;ReAct (https://huggingface.co/papers?q=ReAct) 达到了更高的峰值,但方差和令牌成本也更高。这些结果表明,在稀缺的教师轨迹预算下,基于执行搜索的方法更加可靠。
查看 arXiv 页面 (https://arxiv.org/abs/2606.12674) 查看 PDF (https://arxiv.org/pdf/2606.12674) GitHub 0 (https://github.com/IBM/Evoflux) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12674)
引用本文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。
引用本文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。
引用本文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。
包含本文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
EvoMAS:学习多智能体系统的执行时工作流
EvoMAS 是一个框架,通过将工作流构建形式化为顺序决策问题,来学习多智能体系统中的执行时工作流。它通过根据不断变化的任务状态动态调整智能体协作,在复杂任务上优于静态多智能体设计方法。
EnvFactory:通过可执行环境合成与鲁棒强化学习扩展工具使用智能体
EnvFactory 自动化创建可执行工具环境和自然的多轮轨迹,用于训练具有智能体强化学习能力的大语言模型,在使用比先前工作更少的环境下,在 BFCLv3 和 MCP-Atlas 等基准测试上取得了优异性能。
MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架
MetaEvo 提出了一种两阶段框架,用于基于LLM的智能体的持续进化,利用基于偏好的优化来增强原则抽象和用于经验重用的模块化架构,在推理基准测试上优于强基线。
面向低延迟多智能体工具调用的有状态推理架构
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。
@tom_doerr: 半自主代理通过并行实验优化代码库 https://github.com/evo-hq/evo
Evo是一个开源工具,提供半自主代理通过并行实验优化代码库,利用树搜索和多个子代理自主发现并改进指标。