Evoflux: 针对轻量级智能体的可执行工具工作流的推理时演化

Hugging Face Daily Papers 论文

摘要

Evoflux 在推理时使用进化搜索来修复轻量级语言模型中失败的工具工作流,相比微调方法显著提升了执行可行性。

轻量级语言模型 (LM) 可降低工具智能体的成本、延迟和部署风险。然而,MCP 风格的工具使用不仅仅需要孤立的函数调用:智能体必须从实时目录中发现工具、满足模式要求、保留中间输出的依赖关系,并将最终响应建立在已执行的证据之上。小型规划器通常生成看似合理的任务图,但在工具解析、参数验证、依赖追踪或执行阶段失败。我们认为,这种失败模式难以通过小样本蒸馏来处理。数百个教师轨迹可以教会工作流格式,但很少覆盖修复失败计划所需的恢复行为,尤其是在工具目录发生变化的情况下。我们引入了 Evoflux,一种推理时进化搜索方法,将轻量级工具使用视为可执行工具工作流的修复。它通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝来演化类型化的工作流图。在包含实时 MCP 服务器和 250 个工具的 MCP-Bench 保留任务上,Evoflux 将小型规划器的执行可行性从约 3% 提升至 17-24%。相比之下,在相同搜索挖掘数据上的 SFT 和 SFT+DPO 要么持平、表现不佳,要么低于零样本性能;ReAct 达到更高峰值,但方差和令牌成本更高。这些结果表明,在教师轨迹预算有限的情况下,基于执行的搜索更为可靠。
查看原文
查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - Evoflux: 面向紧凑代理的可执行工具工作流的推理时演化

来源: https://huggingface.co/papers/2606.12674 发布于 6月10日

·

提交者 https://huggingface.co/LeoYML

Leo Y (https://huggingface.co/LeoYML) 于 6月12日

摘要

Evoflux 使紧凑语言模型能够通过使用演化搜索在推理时修复失败的计划,从而更可靠地执行工具工作流,与传统微调方法相比,显著提高了执行可行性。

紧凑语言模型 (https://huggingface.co/papers?q=Compact%20language%20models) 降低了工具代理 (https://huggingface.co/papers?q=tool%20agents) 的成本、延迟和部署风险。然而,MCP 风格的工具使用 (https://huggingface.co/papers?q=MCP-style%20tool%20use) 需要的不仅仅是孤立的函数调用:代理必须从实时目录中发现工具,满足模式,跨中间输出保留依赖关系,并将最终响应基于已执行的证据。小型规划器通常会生成看似合理的工作流图 (https://huggingface.co/papers?q=workflow%20graphs),但在工具解析、参数验证、依赖跟踪或执行时失败。我们认为,这种失败模式很难通过小规模语料蒸馏来处理。几百条教师轨迹可以教授工作流格式,但很少涵盖在变化的工具目录中修复失败计划所需的恢复行为。我们引入了 Evoflux,一种推理时演化搜索 (https://huggingface.co/papers?q=evolutionary%20search) 方法,它将紧凑工具使用视为可执行工具工作流的修复。它通过结构化编辑 (https://huggingface.co/papers?q=structured%20edits)、执行反馈 (https://huggingface.co/papers?q=execution%20feedback)、自适应强度 (https://huggingface.co/papers?q=adaptive%20intensity)、元引导重新设计 (https://huggingface.co/papers?q=meta-guided%20redesign) 和多样性剪枝 (https://huggingface.co/papers?q=diversity%20pruning) 来演化类型化工作流图 (https://huggingface.co/papers?q=workflow%20graphs)。在涵盖实时 MCP 服务器和 250 个工具的保留 MCP-Bench 任务上,Evoflux 将小型规划器的执行可行性从大约 3% 提高到 17-24%。相比之下,在相同搜索挖掘数据上的 SFT (https://huggingface.co/papers?q=SFT) 和 SFT (https://huggingface.co/papers?q=SFT)+DPO (https://huggingface.co/papers?q=DPO) 要么持平,要么表现不佳,要么性能崩溃低于零样本水平;ReAct (https://huggingface.co/papers?q=ReAct) 达到了更高的峰值,但方差和令牌成本也更高。这些结果表明,在稀缺的教师轨迹预算下,基于执行搜索的方法更加可靠。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12674) 查看 PDF (https://arxiv.org/pdf/2606.12674) GitHub 0 (https://github.com/IBM/Evoflux) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12674)

引用本文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。

引用本文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。

引用本文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。

包含本文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

EvoMAS:学习多智能体系统的执行时工作流

arXiv cs.AI

EvoMAS 是一个框架,通过将工作流构建形式化为顺序决策问题,来学习多智能体系统中的执行时工作流。它通过根据不断变化的任务状态动态调整智能体协作,在复杂任务上优于静态多智能体设计方法。

面向低延迟多智能体工具调用的有状态推理架构

arXiv cs.LG

本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。