ShapeCodeBench:合成形状场景中感知到程序重建的可再生基准
摘要
ShapeCodeBench是一个用于感知到程序重建的合成基准,模型需从光栅图像生成可执行的绘图程序,评估指标包括精确匹配和像素准确率。该基准通过种子随机数生成器实现可再生性,当前模型仍获得较低的精确匹配率,表明还有改进空间。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - ShapeCodeBench:面向合成形状场景的可持续感知到程序重建基准
来源:https://huggingface.co/papers/2605.11680
摘要
ShapeCodeBench 提出了一个面向感知到程序重建的合成基准,模型需从栅格图像生成可执行绘图程序,并通过多项指标(包括精确匹配和像素准确率)进行评估。
我们推出了 ShapeCodeBench,这是一个用于感知到程序重建的合成基准(https://huggingface.co/papers?q=synthetic%20benchmark),具体任务为:给定一张渲染后的栅格图像(https://huggingface.co/papers?q=raster%20image),模型必须输出一个可执行的绘图程序(https://huggingface.co/papers?q=executable%20drawing%20program),由确定性评估器(https://huggingface.co/papers?q=deterministic%20evaluator)重新渲染并与目标进行比较。v1 DSL(https://huggingface.co/papers?q=DSL)在 512 x 512 的黑底白画画布(https://huggingface.co/papers?q=canvas)上包含四种图元(https://huggingface.co/papers?q=primitives),但每个实例均由带种子的 RNG(https://huggingface.co/papers?q=seeded%20RNG)生成,因此可以不断创建新的留出集(https://huggingface.co/papers?q=held-out%20sets),以减少精确实例污染。我们发布了冻结的 eval_v1 数据集,包含 150 个样本,分为简单、中等和困难三个等级,评分指标包括精确匹配(https://huggingface.co/papers?q=exact%20match)、像素准确率(https://huggingface.co/papers?q=pixel%20accuracy)、前景 IoU(https://huggingface.co/papers?q=foreground%20IoU)、解析成功率(https://huggingface.co/papers?q=parse%20success)和执行成功率(https://huggingface.co/papers?q=execution%20success)。我们评估了空程序基线、经典计算机视觉启发式方法、Claude Opus 4.7(高与最大努力模式)以及 GPT-5.5(中等与额外高推理努力模式)。启发式方法在简单场景中表现出色,但当重叠导致组件融合时会完全失效;最强的多模态配置(https://huggingface.co/papers?q=multimodal%20configuration)保留了大部分前景结构,但由于参数误差较小(https://huggingface.co/papers?q=parameter%20errors),仍未达到精确匹配(https://huggingface.co/papers?q=exact%20match)。最佳总体精确匹配(https://huggingface.co/papers?q=exact%20match)仍然较低,因此 ShapeCodeBench 远未饱和。基准代码、冻结数据集、运行成果及论文源码均已发布,以支持独立复现与扩展。
查看 arXiv 页面(https://arxiv.org/abs/2605.11680)查看 PDF(https://arxiv.org/pdf/2605.11680)项目页面(https://arxiv.org/abs/2605.11680)GitHub1(https://github.com/shivamk3r/shape-code-bench)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.11680)
在您的智能体中获取此论文:
hf papers read 2605.11680
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。
引用此论文的 Space0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.11680 以从此页面建立关联。
包含此论文的合集0
暂无合集包含此论文
请将此论文添加到一个合集(https://huggingface.co/new-collection)中以从此页面建立关联。
相似文章
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
覆盖计算机使用的人类动作空间:数据合成与基准测试
本文介绍了CUActSpot,一个用于评估计算机使用代理的多模态基准测试,以及一个基于渲染器的数据合成流程。提出的Phi-Ground-Any-4B模型在32B参数以下的开源模型中表现最佳。
scShapeBench: 从高维scRNAseq数据中发现几何结构
介绍scShapeBench,一个用于高维单细胞数据形状检测的基准数据集,以及scReebTower,一种使用扩散几何和Reeb图将数据形状分类为聚类、轨迹、多分支和原型的基线方法。
@KLieret: 你可以自己在 ProgramBench 上进行评估:https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…
ProgramBench 是一个新的基准测试,用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。
QuantCode-Bench:评估大语言模型生成可执行算法交易策略能力的基准
# 论文页面 - QuantCode-Bench:评估大语言模型生成可执行算法交易策略能力的基准 来源:[https://huggingface.co/papers/2604.15151](https://huggingface.co/papers/2604.15151) ## 摘要 QuantCode\-Bench 通过测试大语言模型能否将自然语言描述转化为可在历史金融数据上正确运行的功能性代码,来评估其生成可执行交易策略的能力。