精准调试基准:你的模型在调试还是在重写?
摘要
# 论文页面 - 精准调试基准:你的模型在调试还是在重写? 来源:[https://huggingface.co/papers/2604.17338](https://huggingface.co/papers/2604.17338) ## 摘要 前沿大模型在测试通过率上表现优异,但在调试任务中的精准度却很低,暴露出功能正确与精准定位缺陷之间的鸿沟。与代码补全不同,调试需定位错误并做针对性修改。我们观察到,前沿大模型在调试时往往重写出正确却过度修改的代码。
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - 精准调试基准:你的模型是在调试,还是在重写?
来源:https://huggingface.co/papers/2604.17338
摘要
前沿大模型在单测通过率上表现亮眼,却在调试任务中精准度堪忧,暴露出“功能正确”与“精准定位”之间的巨大鸿沟。
与代码补全不同,调试需要先定位缺陷,再实施最小化修改。我们观察到,前沿大模型在调试时往往把整段代码“重写”成能通过测试的版本,而非仅修复缺陷。为衡量模型离“精准调试”还有多远,我们提出精准调试基准(Precise Debugging Benchmark,PDB)框架,可把任意编程数据集自动转换成带“精准度感知”评价的调试基准。PDB 通过合成已验证的原子缺陷并组合成多缺陷程序来生成 buggy 代码。我们定义了两项新指标:编辑级精准度(edit-level precision)与缺陷级召回率(bug-level recall),分别衡量“做了多少必要修改”与“修掉了多少缺陷”。我们发布了两份评测集:PDB-Single-Hard(单行缺陷)与 PDB-Multi(多行缺陷)。实验显示,GPT-5.1-Codex、DeepSeek-V3.2-Thinking 等前沿模型单元测试通过率超 76%,但精准度不足 45%,即便显式要求“最小化修改”也是如此。最后,我们发现迭代式与Agent 化调试策略并未显著提升精准度或召回率,凸显了对代码模型后训练流程的重新思考之必要。
查看 arXiv 页面 (https://arxiv.org/abs/2604.17338)
查看 PDF (https://arxiv.org/pdf/2604.17338)
项目主页 (https://precise-debugging-benchmark.github.io/)
GitHub (https://github.com/Bill1235813/PDB)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17338)
在 Agent 中阅读本文:
hf papers read 2604.17338
未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用
在模型 README.md 中引用 arxiv.org/abs/2604.17338 即可在此显示。
引用该论文的数据集 3
Precise-Debugging-Benchmarking/PDB-Multi
Viewer • 约 4 小时前更新 • 256 下载 • 38 赞
(https://huggingface.co/datasets/Precise-Debugging-Benchmarking/PDB-Multi)
Precise-Debugging-Benchmarking/PDB-Single-Hard
Viewer • 约 4 小时前更新 • 5.75k 下载 • 38 赞
(https://huggingface.co/datasets/Precise-Debugging-Benchmarking/PDB-Single-Hard)
Precise-Debugging-Benchmarking/PDB-Single
Viewer • 约 4 小时前更新 • 7.59k 下载 • 32 赞
(https://huggingface.co/datasets/Precise-Debugging-Benchmarking/PDB-Single)
引用该论文的 Spaces 0
暂无 Space 引用
在 Space README.md 中引用 arxiv.org/abs/2604.17338 即可在此显示。
收录该论文的合集 0
暂无合集收录
创建合集 并添加该论文即可在此显示。
相似文章
预测性数据调试:在训练前揭示并塑造模型所学(11分钟阅读)
这项研究介绍了一种方法,利用可解释性在训练前预测DPO将从偏好数据集中放大或抑制哪些行为,从而实现数据调试以防止不良影响。该技术达到了R²=0.9的预测准确率,并集成到了Goodfire的Silico平台中。
Benchmarking Large Language Models on Floating-Point Error Classification
This paper introduces InterFLOPBench, a benchmark for evaluating LLMs on detecting floating-point errors in C code, finding that recent models achieve high F1-scores, though performance varies by error type.
GENEB:为何基因组模型难以相互比较
GENEB 是一个大规模诊断基准,在统一的探测协议下,跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性,以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题,类似于 MTEB 在 NLP 领域所做的工作。
评估在代码上训练的大型语言模型
OpenAI 推出了 Codex,这是一个在 GitHub 代码上微调的 GPT 模型,在 HumanEval(一个用于从文档字符串进行代码合成的新基准)上实现了 28.8% 的功能正确性,远超 GPT-3(0%)和 GPT-J(11.4%)。该论文表明重复采样可以将性能提升至 70.2%(采样 100 次),并讨论了代码生成系统的局限性和更广泛的影响。
新DeepSWE基准测试发现Claude Opus作弊
Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。