Crafter:一种面向多输入的可编辑科学图表生成的多智能体框架

Hugging Face Daily Papers 论文

摘要

本文介绍了Crafter,一种用于从多种输入类型生成可编辑科学图表的多智能体框架,以及用于光栅图到SVG转换的CraftEditor和用于评估的CraftBench,其性能优于现有的独立生成器。

科学图表是传达复杂研究思想最有效的方式之一,然而制作出版级别的插图仍然是论文准备中最费力的环节之一。现有的自动化系统各自针对单一图表类型和纯文本输入,未能覆盖研究人员实际使用的多样类型和条件;其光栅输出也无法进行局部修改。由于科学图表是由离散语义组件构成的结构化组合,生成器在这些布局上产生的局部错误需要的不是更强的骨干网络,而是一个框架。我们将这个框架实例化为两个互补系统:Crafter,一个无需架构变更即可泛化到多种图表类型和输入条件的多智能体图表生成框架;以及CraftEditor,它应用相同模式将光栅输出转换为可编辑的SVG。此外,我们还引入了CraftBench,一个涵盖三种图表类型和四种输入条件且带有人工质量标注的基准测试。实验表明,Crafter在PaperBanana-Bench和CraftBench上大幅优于独立生成器和智能体基线,消融实验确认了各组件的独立贡献;CraftEditor忠实地将输出转换为可编辑的SVG,超越了所有基线。我们的代码和基准测试可在 https://github.com/HaozheZhao/Crafter 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - Crafter: 面向多样化输入的可编辑科学图表生成的多智能体框架

来源:https://huggingface.co/papers/2605.30611

摘要

自动化科学图表生成系统在处理多样化的图表类型和条件时存在局限,这促使开发能够泛化至不同输入场景并生成可编辑输出格式的多智能体框架。

科学图表是传达复杂研究思想最有效的手段之一,然而,制作达到发表质量的插图仍然是论文准备过程中最费力的环节。现有的自动化系统各自仅针对单一图表类型,且限于纯文本输入,未能覆盖研究人员实际使用的多样类型和条件;其光栅输出 (https://huggingface.co/papers?q=raster%20outputs) 也无法本地修改。由于科学图表是由离散语义组件构成的结构化组合,生成器在此类布局上产生的局部错误,需要的并非更强的骨干网络,而是一个管控框架。我们通过两个互补系统来实现这一管控框架:Crafter,一个通用图表生成 (https://huggingface.co/papers?q=figure%20generation) 的多智能体管控框架 (https://huggingface.co/papers?q=multi-agent%20harness),无需改变架构即可泛化至多种图表类型和输入条件;以及CraftEditor,采用相同模式将光栅输出 (https://huggingface.co/papers?q=raster%20outputs) 转换为可编辑 SVG (https://huggingface.co/papers?q=editable%20SVGs)。此外,我们引入了CraftBench (https://huggingface.co/papers?q=CraftBench),一个涵盖三种图表类型和四种输入条件、并附有人工质量标注的基准。实验表明,Crafter 在PaperBanana-Bench (https://huggingface.co/papers?q=PaperBanana-Bench) 和CraftBench (https://huggingface.co/papers?q=CraftBench) 上显著优于独立生成器和智能体基线,消融实验确认了每个组件的独立贡献;CraftEditor 忠实地将输出转换为可编辑 SVG (https://huggingface.co/papers?q=editable%20SVGs),超过所有基线。我们的代码和基准详见 https://github.com/HaozheZhao/Crafter。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30611) 查看 PDF (https://arxiv.org/pdf/2605.30611) GitHub1 (https://github.com/HaozheZhao/Crafter) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30611)

在你的Agent中获取这篇论文:

hf papers read 2605\.30611

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30611 以将其从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30611 以将其从此页面链接。

引用此论文的Space0

无Space链接此论文

在Space README.md 中引用 arxiv.org/abs/2605.30611 以将其从此页面链接。

包含此论文的收藏0

无收藏包含此论文

添加此论文到收藏 (https://huggingface.co/new-collection) 以将其从此页面链接。

相似文章

面向长时应用开发的Harness设计

Anthropic Engineering

Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。

GenClaw: 代码驱动的智能体图像生成

Hugging Face Daily Papers

GenClaw 提出了一种代码驱动的智能体图像生成框架,通过模拟人类的创作过程来打破黑箱范式:概念构思、使用代码(SVG/HTML/Three.js)进行草图绘制,然后利用生成模型添加纹理和实现逼真效果。