ShapeCodeBench:合成形状场景中感知到程序重建的可再生基准

Hugging Face Daily Papers 论文

摘要

ShapeCodeBench是一个用于感知到程序重建的合成基准,模型需从光栅图像生成可执行的绘图程序,评估指标包括精确匹配和像素准确率。该基准通过种子随机数生成器实现可再生性,当前模型仍获得较低的精确匹配率,表明还有改进空间。

我们介绍了ShapeCodeBench,这是一个用于感知到程序重建的合成基准:给定一个渲染后的光栅图像,模型必须输出一个可执行的绘图程序,由确定性评估器重新渲染并与目标进行比较。v1领域特定语言具有四个基本图形,在512×512的白底黑色画布上,但每个实例均由种子随机数生成器生成,因此可以创建新的保留集以减少精确实例污染。我们发布了一个冻结的eval_v1分割,包含150个样本,分为简单、中等和困难三个等级,通过精确匹配、像素准确率、前景交并比、解析成功率和执行成功率进行评分。我们评估了空程序基线、经典计算机视觉启发式方法、高努力和最高努力下的Claude Opus 4.7,以及中等和超高推理努力下的GPT-5.5。启发式方法在简单场景上具有竞争力,但当重叠融合组件时崩溃;最强的多模态配置保留了大部分前景结构,但由于小的参数误差仍无法达到精确匹配。总体最佳精确匹配仍然较低,因此ShapeCodeBench远未饱和。基准代码、冻结数据集、运行工件和论文源代码均发布,以支持独立复制和扩展。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - ShapeCodeBench:面向合成形状场景的可持续感知到程序重建基准

来源:https://huggingface.co/papers/2605.11680

摘要

ShapeCodeBench 提出了一个面向感知到程序重建的合成基准,模型需从栅格图像生成可执行绘图程序,并通过多项指标(包括精确匹配和像素准确率)进行评估。

我们推出了 ShapeCodeBench,这是一个用于感知到程序重建的合成基准(https://huggingface.co/papers?q=synthetic%20benchmark),具体任务为:给定一张渲染后的栅格图像(https://huggingface.co/papers?q=raster%20image),模型必须输出一个可执行的绘图程序(https://huggingface.co/papers?q=executable%20drawing%20program),由确定性评估器(https://huggingface.co/papers?q=deterministic%20evaluator)重新渲染并与目标进行比较。v1 DSL(https://huggingface.co/papers?q=DSL)在 512 x 512 的黑底白画画布(https://huggingface.co/papers?q=canvas)上包含四种图元(https://huggingface.co/papers?q=primitives),但每个实例均由带种子的 RNG(https://huggingface.co/papers?q=seeded%20RNG)生成,因此可以不断创建新的留出集(https://huggingface.co/papers?q=held-out%20sets),以减少精确实例污染。我们发布了冻结的 eval_v1 数据集,包含 150 个样本,分为简单、中等和困难三个等级,评分指标包括精确匹配(https://huggingface.co/papers?q=exact%20match)、像素准确率(https://huggingface.co/papers?q=pixel%20accuracy)、前景 IoU(https://huggingface.co/papers?q=foreground%20IoU)、解析成功率(https://huggingface.co/papers?q=parse%20success)和执行成功率(https://huggingface.co/papers?q=execution%20success)。我们评估了空程序基线、经典计算机视觉启发式方法、Claude Opus 4.7(高与最大努力模式)以及 GPT-5.5(中等与额外高推理努力模式)。启发式方法在简单场景中表现出色,但当重叠导致组件融合时会完全失效;最强的多模态配置(https://huggingface.co/papers?q=multimodal%20configuration)保留了大部分前景结构,但由于参数误差较小(https://huggingface.co/papers?q=parameter%20errors),仍未达到精确匹配(https://huggingface.co/papers?q=exact%20match)。最佳总体精确匹配(https://huggingface.co/papers?q=exact%20match)仍然较低,因此 ShapeCodeBench 远未饱和。基准代码、冻结数据集、运行成果及论文源码均已发布,以支持独立复现与扩展。

查看 arXiv 页面(https://arxiv.org/abs/2605.11680)查看 PDF(https://arxiv.org/pdf/2605.11680)项目页面(https://arxiv.org/abs/2605.11680)GitHub1(https://github.com/shivamk3r/shape-code-bench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11680)

在您的智能体中获取此论文:

hf papers read 2605.11680

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。

引用此论文的 Space0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。

包含此论文的合集0

暂无合集包含此论文

请将此论文添加到一个合集(https://huggingface.co/new-collection)中以从此页面建立关联。

相似文章

ProgramBench(5分钟阅读)

TLDR AI

ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。

scShapeBench: 从高维scRNAseq数据中发现几何结构

arXiv cs.LG

介绍scShapeBench,一个用于高维单细胞数据形状检测的基准数据集,以及scReebTower,一种使用扩散几何和Reeb图将数据形状分类为聚类、轨迹、多分支和原型的基线方法。

QuantCode-Bench:评估大语言模型生成可执行算法交易策略能力的基准

Hugging Face Daily Papers

# 论文页面 - QuantCode-Bench:评估大语言模型生成可执行算法交易策略能力的基准 来源:[https://huggingface.co/papers/2604.15151](https://huggingface.co/papers/2604.15151) ## 摘要 QuantCode\-Bench 通过测试大语言模型能否将自然语言描述转化为可在历史金融数据上正确运行的功能性代码,来评估其生成可执行交易策略的能力。