ShapeCodeBench：合成形状场景中感知到程序重建的可再生基准

Hugging Face Daily Papers 2026/05/12 00:00 论文

benchmark synthetic perception-to-program reconstruction drawing-programs evaluation

摘要

ShapeCodeBench是一个用于感知到程序重建的合成基准，模型需从光栅图像生成可执行的绘图程序，评估指标包括精确匹配和像素准确率。该基准通过种子随机数生成器实现可再生性，当前模型仍获得较低的精确匹配率，表明还有改进空间。

我们介绍了ShapeCodeBench，这是一个用于感知到程序重建的合成基准：给定一个渲染后的光栅图像，模型必须输出一个可执行的绘图程序，由确定性评估器重新渲染并与目标进行比较。v1领域特定语言具有四个基本图形，在512×512的白底黑色画布上，但每个实例均由种子随机数生成器生成，因此可以创建新的保留集以减少精确实例污染。我们发布了一个冻结的eval_v1分割，包含150个样本，分为简单、中等和困难三个等级，通过精确匹配、像素准确率、前景交并比、解析成功率和执行成功率进行评分。我们评估了空程序基线、经典计算机视觉启发式方法、高努力和最高努力下的Claude Opus 4.7，以及中等和超高推理努力下的GPT-5.5。启发式方法在简单场景上具有竞争力，但当重叠融合组件时崩溃；最强的多模态配置保留了大部分前景结构，但由于小的参数误差仍无法达到精确匹配。总体最佳精确匹配仍然较低，因此ShapeCodeBench远未饱和。基准代码、冻结数据集、运行工件和论文源代码均发布，以支持独立复制和扩展。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - ShapeCodeBench：面向合成形状场景的可持续感知到程序重建基准

来源：https://huggingface.co/papers/2605.11680

摘要

ShapeCodeBench 提出了一个面向感知到程序重建的合成基准，模型需从栅格图像生成可执行绘图程序，并通过多项指标（包括精确匹配和像素准确率）进行评估。

我们推出了 ShapeCodeBench，这是一个用于感知到程序重建的合成基准（https://huggingface.co/papers?q=synthetic%20benchmark），具体任务为：给定一张渲染后的栅格图像（https://huggingface.co/papers?q=raster%20image），模型必须输出一个可执行的绘图程序（https://huggingface.co/papers?q=executable%20drawing%20program），由确定性评估器（https://huggingface.co/papers?q=deterministic%20evaluator）重新渲染并与目标进行比较。v1 DSL（https://huggingface.co/papers?q=DSL）在 512 x 512 的黑底白画画布（https://huggingface.co/papers?q=canvas）上包含四种图元（https://huggingface.co/papers?q=primitives），但每个实例均由带种子的 RNG（https://huggingface.co/papers?q=seeded%20RNG）生成，因此可以不断创建新的留出集（https://huggingface.co/papers?q=held-out%20sets），以减少精确实例污染。我们发布了冻结的 eval_v1 数据集，包含 150 个样本，分为简单、中等和困难三个等级，评分指标包括精确匹配（https://huggingface.co/papers?q=exact%20match）、像素准确率（https://huggingface.co/papers?q=pixel%20accuracy）、前景 IoU（https://huggingface.co/papers?q=foreground%20IoU）、解析成功率（https://huggingface.co/papers?q=parse%20success）和执行成功率（https://huggingface.co/papers?q=execution%20success）。我们评估了空程序基线、经典计算机视觉启发式方法、Claude Opus 4.7（高与最大努力模式）以及 GPT-5.5（中等与额外高推理努力模式）。启发式方法在简单场景中表现出色，但当重叠导致组件融合时会完全失效；最强的多模态配置（https://huggingface.co/papers?q=multimodal%20configuration）保留了大部分前景结构，但由于参数误差较小（https://huggingface.co/papers?q=parameter%20errors），仍未达到精确匹配（https://huggingface.co/papers?q=exact%20match）。最佳总体精确匹配（https://huggingface.co/papers?q=exact%20match）仍然较低，因此 ShapeCodeBench 远未饱和。基准代码、冻结数据集、运行成果及论文源码均已发布，以支持独立复现与扩展。

查看 arXiv 页面（https://arxiv.org/abs/2605.11680）查看 PDF（https://arxiv.org/pdf/2605.11680）项目页面（https://arxiv.org/abs/2605.11680）GitHub1（https://github.com/shivamk3r/shape-code-bench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.11680）

在您的智能体中获取此论文：

hf papers read 2605.11680

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。

引用此论文的 Space0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。

包含此论文的合集0

暂无合集包含此论文

请将此论文添加到一个合集（https://huggingface.co/new-collection）中以从此页面建立关联。

ShapeCodeBench：合成形状场景中感知到程序重建的可再生基准

论文页面 - ShapeCodeBench：面向合成形状场景的可持续感知到程序重建基准

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的合集0

相似文章

ProgramBench（5分钟阅读）

覆盖计算机使用的人类动作空间：数据合成与基准测试

scShapeBench: 从高维scRNAseq数据中发现几何结构

@KLieret: 你可以自己在 ProgramBench 上进行评估：https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…

QuantCode-Bench：评估大语言模型生成可执行算法交易策略能力的基准

提交意见反馈