SPIN:通过迭代导航实现工业任务的结构化LLM规划

Hugging Face Daily Papers 论文

摘要

SPIN 是一个规划包装器,确保结构有效的有向无环图(DAG)规划,并使用基于前缀的执行控制来减少工业 LLM 代理系统中的任务步骤和工具调用,从而提高规划的有效性和效率。

工业 LLM 代理系统通常将规划与执行分离,但 LLM 规划器经常产生结构无效或过长的工作流程,导致脆性故障以及可避免的工具和 API 成本。我们提出 SPIN,一个结合了经过验证的有向无环图(DAG)规划与基于前缀的执行控制的规划包装器。SPIN 通过 \_validate\_plan\_text 和修复提示来强制执行严格的 DAG 契约,在下游执行之前生成可执行的规划,然后增量评估 DAG 前缀,在当前前缀足以回答查询时停止。在 AssetOpsBench 上,涵盖 261 个场景,SPIN 将执行任务从 1061 减少到 623,并将 Accomplished 得分从 0.638 提高到 0.706,同时每次运行的 tool 调用从 11.81 减少到 6.82。在 MCP Bench 上,同样的包装器提高了 GPT OSS1 和 Llama 4 Maverick 在规划、基础(grounding)和依赖相关方面的得分。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:24

论文页面 - SPIN:面向工业任务的基于迭代导航的结构化LLM规划

来源:https://huggingface.co/papers/2605.14051

摘要

SPIN是一个规划封装器,它结合了经过验证的DAG规划与基于前缀的执行控制,以减少任务执行次数并提升工业LLM智能体系统中规划的有效性。

工业LLM智能体系统(https://huggingface.co/papers?q=LLM%20agent%20systems)通常将规划与执行分离,但LLM规划器常常生成结构无效或过于冗长的工作流,导致脆弱的失败以及可避免的工具和API成本。我们提出SPIN,一个结合了经过验证的有向无环图(DAG,https://huggingface.co/papers?q=Directed%20Acyclic%20Graph)规划与基于前缀的执行控制的规划封装器。SPIN通过_validate_plan_text和修复提示(repair prompting,https://huggingface.co/papers?q=repair%20prompting)强制执行严格的DAG契约,在下游执行之前生成可执行的规划,然后增量式评估DAG前缀,在当前前缀足以回答查询时停止执行。在AssetOpsBench上,涵盖261个场景,SPIN将执行的任务从1061减少到623,将完成率(Accomplished)从0.638提升到0.706,同时每次运行的工具调用次数从11.81减少到6.82。在MCP Bench上,相同的封装器改进了GPT OSS1和Llama 4 Maverick的规划、基础以及依赖相关得分。

查看arXiv页面(https://arxiv.org/abs/2605.14051)查看PDF(https://arxiv.org/pdf/2605.14051)添加到集合(https://huggingface.co/login?next=%2Fpapers%2F2605.14051)

引用该论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.14051即可从本页面链接该论文。

引用该论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.14051即可从本页面链接该论文。

引用该论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.14051即可从本页面链接该论文。

包含该论文的收藏集0

没有收藏集包含此论文

将该论文添加到收藏集(https://huggingface.co/new-collection)即可从本页面链接该论文。

相似文章

SPIN:基于张量化策略协调的去中心化集群控制

arXiv cs.LG

本文介绍了SPIN,一种用于去中心化多智能体集群控制的框架,该框架利用张量网络分解将计算复杂度从指数级降低到线性级,从而支持低功耗边缘部署。通过仿真对追踪、覆盖和协调任务进行了验证。

SIMMER: 使用世界模型对LLM可执行规划中的潜在故障进行基准测试

arXiv cs.CL

介绍了Simmer,这是一个基准测试,用于评估LLM生成的可执行计划中的潜在故障,使用了在厨房领域人工策划的符号世界模型。实验表明,前沿LLM最多只能生成17%的无错误计划,高达56%的计划包含潜在故障,而反事实前瞻模拟能显著减少故障。

从人工引导到自主:面向空间NPU的端到端LLM部署的智能体技能系统

arXiv cs.LG

本文提出了一种两阶段方法论,用于在空间NPU上进行端到端大语言模型(LLM)部署,从人工引导开发逐步过渡到自主智能体技能系统。该系统在参考模型上实现了预填充阶段2.2倍、解码阶段4.0倍的加速,并以极少的人工引导在AMD XDNA 2 NPU上自主部署了另外八个LLM。