Chat2Workflow：用自然语言生成可执行可视化工作流的基准测试

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

Chat2Workflow 提出了一套基准与智能体框架，用于将自然语言直接转化为可执行的可视化工作流。实验表明，现有大模型虽能捕捉意图，却难以胜任工业级自动化。

目前，可执行的可视化工作流已成为工业落地的主流范式，兼具高可靠与强可控。然而，现有实践几乎完全依赖手工搭建：开发者需逐环节设计流程、逐节点撰写提示，并在需求变更时反复打磨逻辑——开发成本高、周期长且易出错。为探究大语言模型能否自动化这一多轮交互过程，我们发布 Chat2Workflow 基准，支持从自然语言直接生成可执行可视化工作流，并配套鲁棒的智能体框架以缓解反复执行错误。该基准源自海量真实业务场景，每个实例均可一键转换为 Dify、Coze 等主流平台的可部署流程。实验结果显示，尽管 SOTA 模型常能抓住高层意图，但在复杂或易变需求下仍难以输出正确、稳定且可执行的工作流。即便我们的智能体框架将解决率提升 5.34%，现实差距依旧显著，Chat2Workflow 因此成为推进工业级自动化的基石。代码已开源：https://github.com/zjunlp/Chat2Workflow。

查看原文

查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - Chat2Workflow：用于从自然语言生成可执行可视化工作流的基准

来源：https://huggingface.co/papers/2604.19667

摘要

Chat2Workflow 提供了一个基准和智能体框架，用于将自然语言自动转换为可执行的可视化工作流，揭示了尽管语言模型不断进步，实现工业级自动化仍面临巨大挑战。

目前，可执行可视化工作流（https://huggingface.co/papers?q=executable%20visual%20workflows）已成为实际工业部署（https://huggingface.co/papers?q=industrial%20deployments）的主流范式，具备高可靠性与可控性。然而，现有实践中，这类工作流几乎完全依赖人工构建：开发者需精心设计流程、为每一步撰写提示，并随需求变化反复修正逻辑——导致开发成本高、耗时长且易出错。为研究大语言模型能否自动化这一多轮交互过程，我们提出 Chat2Workflow（https://huggingface.co/papers?q=Chat2Workflow），一个直接从自然语言生成可执行可视化工作流（https://huggingface.co/papers?q=executable%20visual%20workflows）的基准，并设计了一套鲁棒的智能体框架（https://huggingface.co/papers?q=agentic%20framework）以缓解反复出现的执行错误。Chat2Workflow 基于大量真实业务工作流构建，每个实例均可转换并直接部署到 Dify、Coze 等实际工作流平台。实验表明，尽管当前最先进的大模型常能捕捉高层意图，但在复杂或变化的需求下，仍难以生成正确、稳定且可执行的工作流。我们的智能体框架（https://huggingface.co/papers?q=agentic%20framework）虽将解决率提升最多 5.34%，但剩余的现实差距使 Chat2Workflow（https://huggingface.co/papers?q=Chat2Workflow）成为推动工业级自动化进一步发展的基石。代码开源地址：https://github.com/zjunlp/Chat2Workflow（https://huggingface.co/papers?q=Chat2Workflow）。

查看 arXiv 页面（https://arxiv.org/abs/2604.19667）
查看 PDF（https://arxiv.org/pdf/2604.19667）
GitHub（https://github.com/zjunlp/Chat2Workflow）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.19667）

在智能体中获取本文：

hf papers read 2604.19667

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.19667 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19667 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19667 即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含该论文

创建收藏并将该论文加入，即可在此页面显示链接。

Chat2Workflow：用自然语言生成可执行可视化工作流的基准测试

论文页面 - Chat2Workflow：用于从自然语言生成可执行可视化工作流的基准

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

跨领域操作序列抽象为可解释工作流

Workspace 智能体

智能体工作流可视化工具：反馈与修正

Workflow-GYM：面向真实世界专业领域中计算机使用代理任务的长期评估

今年尝试了12+个自主AI工作流构建工具——这5个在实际生产中表现优异

提交意见反馈