Evoflux: 针对轻量级智能体的可执行工具工作流的推理时演化

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

Evoflux 在推理时使用进化搜索来修复轻量级语言模型中失败的工具工作流，相比微调方法显著提升了执行可行性。

轻量级语言模型 (LM) 可降低工具智能体的成本、延迟和部署风险。然而，MCP 风格的工具使用不仅仅需要孤立的函数调用：智能体必须从实时目录中发现工具、满足模式要求、保留中间输出的依赖关系，并将最终响应建立在已执行的证据之上。小型规划器通常生成看似合理的任务图，但在工具解析、参数验证、依赖追踪或执行阶段失败。我们认为，这种失败模式难以通过小样本蒸馏来处理。数百个教师轨迹可以教会工作流格式，但很少覆盖修复失败计划所需的恢复行为，尤其是在工具目录发生变化的情况下。我们引入了 Evoflux，一种推理时进化搜索方法，将轻量级工具使用视为可执行工具工作流的修复。它通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝来演化类型化的工作流图。在包含实时 MCP 服务器和 250 个工具的 MCP-Bench 保留任务上，Evoflux 将小型规划器的执行可行性从约 3% 提升至 17-24%。相比之下，在相同搜索挖掘数据上的 SFT 和 SFT+DPO 要么持平、表现不佳，要么低于零样本性能；ReAct 达到更高峰值，但方差和令牌成本更高。这些结果表明，在教师轨迹预算有限的情况下，基于执行的搜索更为可靠。

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - Evoflux: 面向紧凑代理的可执行工具工作流的推理时演化

来源: https://huggingface.co/papers/2606.12674 发布于 6月10日

提交者 https://huggingface.co/LeoYML

Leo Y (https://huggingface.co/LeoYML) 于 6月12日

摘要

Evoflux 使紧凑语言模型能够通过使用演化搜索在推理时修复失败的计划，从而更可靠地执行工具工作流，与传统微调方法相比，显著提高了执行可行性。

紧凑语言模型 (https://huggingface.co/papers?q=Compact%20language%20models) 降低了工具代理 (https://huggingface.co/papers?q=tool%20agents) 的成本、延迟和部署风险。然而，MCP 风格的工具使用 (https://huggingface.co/papers?q=MCP-style%20tool%20use) 需要的不仅仅是孤立的函数调用：代理必须从实时目录中发现工具，满足模式，跨中间输出保留依赖关系，并将最终响应基于已执行的证据。小型规划器通常会生成看似合理的工作流图 (https://huggingface.co/papers?q=workflow%20graphs)，但在工具解析、参数验证、依赖跟踪或执行时失败。我们认为，这种失败模式很难通过小规模语料蒸馏来处理。几百条教师轨迹可以教授工作流格式，但很少涵盖在变化的工具目录中修复失败计划所需的恢复行为。我们引入了 Evoflux，一种推理时演化搜索 (https://huggingface.co/papers?q=evolutionary%20search) 方法，它将紧凑工具使用视为可执行工具工作流的修复。它通过结构化编辑 (https://huggingface.co/papers?q=structured%20edits)、执行反馈 (https://huggingface.co/papers?q=execution%20feedback)、自适应强度 (https://huggingface.co/papers?q=adaptive%20intensity)、元引导重新设计 (https://huggingface.co/papers?q=meta-guided%20redesign) 和多样性剪枝 (https://huggingface.co/papers?q=diversity%20pruning) 来演化类型化工作流图 (https://huggingface.co/papers?q=workflow%20graphs)。在涵盖实时 MCP 服务器和 250 个工具的保留 MCP-Bench 任务上，Evoflux 将小型规划器的执行可行性从大约 3% 提高到 17-24%。相比之下，在相同搜索挖掘数据上的 SFT (https://huggingface.co/papers?q=SFT) 和 SFT (https://huggingface.co/papers?q=SFT)+DPO (https://huggingface.co/papers?q=DPO) 要么持平，要么表现不佳，要么性能崩溃低于零样本水平；ReAct (https://huggingface.co/papers?q=ReAct) 达到了更高的峰值，但方差和令牌成本也更高。这些结果表明，在稀缺的教师轨迹预算下，基于执行搜索的方法更加可靠。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12674) 查看 PDF (https://arxiv.org/pdf/2606.12674) GitHub 0 (https://github.com/IBM/Evoflux) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12674)

引用本文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。

引用本文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。

引用本文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12674 以从此页面链接。

包含本文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

Evoflux: 针对轻量级智能体的可执行工具工作流的推理时演化

论文页面 - Evoflux: 面向紧凑代理的可执行工具工作流的推理时演化

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

包含本文的收藏集 0

相似文章

EvoMAS：学习多智能体系统的执行时工作流

EnvFactory：通过可执行环境合成与鲁棒强化学习扩展工具使用智能体

MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架

面向低延迟多智能体工具调用的有状态推理架构

@tom_doerr: 半自主代理通过并行实验优化代码库 https://github.com/evo-hq/evo

提交意见反馈