Chat2Workflow:用自然语言生成可执行可视化工作流的基准测试

Hugging Face Daily Papers 论文

摘要

Chat2Workflow 提出了一套基准与智能体框架,用于将自然语言直接转化为可执行的可视化工作流。实验表明,现有大模型虽能捕捉意图,却难以胜任工业级自动化。

目前,可执行的可视化工作流已成为工业落地的主流范式,兼具高可靠与强可控。然而,现有实践几乎完全依赖手工搭建:开发者需逐环节设计流程、逐节点撰写提示,并在需求变更时反复打磨逻辑——开发成本高、周期长且易出错。为探究大语言模型能否自动化这一多轮交互过程,我们发布 Chat2Workflow 基准,支持从自然语言直接生成可执行可视化工作流,并配套鲁棒的智能体框架以缓解反复执行错误。该基准源自海量真实业务场景,每个实例均可一键转换为 Dify、Coze 等主流平台的可部署流程。实验结果显示,尽管 SOTA 模型常能抓住高层意图,但在复杂或易变需求下仍难以输出正确、稳定且可执行的工作流。即便我们的智能体框架将解决率提升 5.34%,现实差距依旧显著,Chat2Workflow 因此成为推进工业级自动化的基石。代码已开源:https://github.com/zjunlp/Chat2Workflow。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - Chat2Workflow:用于从自然语言生成可执行可视化工作流的基准

来源:https://huggingface.co/papers/2604.19667

摘要

Chat2Workflow 提供了一个基准和智能体框架,用于将自然语言自动转换为可执行的可视化工作流,揭示了尽管语言模型不断进步,实现工业级自动化仍面临巨大挑战。

目前,可执行可视化工作流(https://huggingface.co/papers?q=executable%20visual%20workflows)已成为实际工业部署(https://huggingface.co/papers?q=industrial%20deployments)的主流范式,具备高可靠性与可控性。然而,现有实践中,这类工作流几乎完全依赖人工构建:开发者需精心设计流程、为每一步撰写提示,并随需求变化反复修正逻辑——导致开发成本高、耗时长且易出错。为研究大语言模型能否自动化这一多轮交互过程,我们提出 Chat2Workflow(https://huggingface.co/papers?q=Chat2Workflow),一个直接从自然语言生成可执行可视化工作流(https://huggingface.co/papers?q=executable%20visual%20workflows)的基准,并设计了一套鲁棒的智能体框架(https://huggingface.co/papers?q=agentic%20framework)以缓解反复出现的执行错误。Chat2Workflow 基于大量真实业务工作流构建,每个实例均可转换并直接部署到 Dify、Coze 等实际工作流平台。实验表明,尽管当前最先进的大模型常能捕捉高层意图,但在复杂或变化的需求下,仍难以生成正确、稳定且可执行的工作流。我们的智能体框架(https://huggingface.co/papers?q=agentic%20framework)虽将解决率提升最多 5.34%,但剩余的现实差距使 Chat2Workflow(https://huggingface.co/papers?q=Chat2Workflow)成为推动工业级自动化进一步发展的基石。代码开源地址:https://github.com/zjunlp/Chat2Workflow(https://huggingface.co/papers?q=Chat2Workflow)。

查看 arXiv 页面(https://arxiv.org/abs/2604.19667)
查看 PDF(https://arxiv.org/pdf/2604.19667)
GitHub(https://github.com/zjunlp/Chat2Workflow)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19667)

在智能体中获取本文:

hf papers read 2604.19667

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.19667 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19667 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19667 即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含该论文

创建收藏 并将该论文加入,即可在此页面显示链接。

相似文章

Workspace 智能体

OpenAI Blog

本文介绍了 OpenAI 在 ChatGPT 中推出的「Workspace Agents」,其设计目标是处理可重复的、结构化的工作流,而非一次性任务。文章阐述了核心概念、组成结构,以及使用和构建这类智能体以实现一致业务流程的最佳实践。

OpenAI:面向企业的 Workspace Agents

Hacker News Top

OpenAI 为 ChatGPT Business 与 Enterprise 方案推出 workspace agents,让团队可构建并共享能自主处理工作流、集成各类工具,并在管理员权限与审计日志管控下运行的 AI 代理。

在ChatGPT中引入工作区代理

OpenAI Blog

OpenAI在ChatGPT中推出工作区代理,这是由Codex驱动的GPTs的进化,使团队能够创建共享的长期运行工作流,并在组织权限内处理复杂任务。

Build Hour: Workspace agents in ChatGPT

YouTube AI Channels

OpenAI 在 Build Hours 中演示了基于 Codex 的 Workspace Agents,允许用户用自然语言在 ChatGPT 中创建跨系统工作的自动化代理,并展示了会议准备助手的完整构建流程。