精准调试基准：你的模型在调试还是在重写？

Hugging Face Daily Papers 2026/04/19 00:00 论文

debugging benchmark llm-evaluation code-generation fault-localization agentic-coding

摘要

# 论文页面 - 精准调试基准：你的模型在调试还是在重写？来源：[https://huggingface.co/papers/2604.17338](https://huggingface.co/papers/2604.17338) ## 摘要前沿大模型在测试通过率上表现优异，但在调试任务中的精准度却很低，暴露出功能正确与精准定位缺陷之间的鸿沟。与代码补全不同，调试需定位错误并做针对性修改。我们观察到，前沿大模型在调试时往往重写出正确却过度修改的代码。

与代码补全不同，调试需要定位错误并做出针对性修改。我们观察到，前沿大模型在调试时常常重写出正确但过度修改的代码。为评估大模型离“精准调试”还有多远，我们提出 Precise Debugging Benchmark（PDB）框架，可自动将任意代码数据集转化为带精准度评估的调试基准。PDB 通过合成已验证的原子级缺陷，并将其组合成多缺陷程序来生成含错代码。我们定义两项新指标：编辑级精准度与缺陷级召回率，分别衡量必要修改的占比与缺陷被修复的比例。我们发布两套评估基准：PDB-Single-Hard（单行缺陷）与 PDB-Multi（多行缺陷）。实验表明，GPT-5.1-Codex、DeepSeek-V3.2-Thinking 等前沿模型单元测试通过率超 76%，但精准度不足 45%，即使明确要求最小化修改。最后，我们发现迭代与智能体调试策略并未显著提升精准度或召回率，凸显需重新思考代码模型的后训练流程。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:20

论文页面 - 精准调试基准：你的模型是在调试，还是在重写？

来源：https://huggingface.co/papers/2604.17338

摘要

前沿大模型在单测通过率上表现亮眼，却在调试任务中精准度堪忧，暴露出“功能正确”与“精准定位”之间的巨大鸿沟。

与代码补全不同，调试需要先定位缺陷，再实施最小化修改。我们观察到，前沿大模型在调试时往往把整段代码“重写”成能通过测试的版本，而非仅修复缺陷。为衡量模型离“精准调试”还有多远，我们提出精准调试基准（Precise Debugging Benchmark，PDB）框架，可把任意编程数据集自动转换成带“精准度感知”评价的调试基准。PDB 通过合成已验证的原子缺陷并组合成多缺陷程序来生成 buggy 代码。我们定义了两项新指标：编辑级精准度（edit-level precision）与缺陷级召回率（bug-level recall），分别衡量“做了多少必要修改”与“修掉了多少缺陷”。我们发布了两份评测集：PDB-Single-Hard（单行缺陷）与 PDB-Multi（多行缺陷）。实验显示，GPT-5.1-Codex、DeepSeek-V3.2-Thinking 等前沿模型单元测试通过率超 76%，但精准度不足 45%，即便显式要求“最小化修改”也是如此。最后，我们发现迭代式与Agent 化调试策略并未显著提升精准度或召回率，凸显了对代码模型后训练流程的重新思考之必要。

查看 arXiv 页面 (https://arxiv.org/abs/2604.17338)
查看 PDF (https://arxiv.org/pdf/2604.17338)
项目主页 (https://precise-debugging-benchmark.github.io/)
GitHub (https://github.com/Bill1235813/PDB)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17338)

在 Agent 中阅读本文：

hf papers read 2604.17338

未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2604.17338 即可在此显示。

引用该论文的数据集 3

Precise-Debugging-Benchmarking/PDB-Multi

Viewer • 约 4 小时前更新 • 256 下载 • 38 赞
(https://huggingface.co/datasets/Precise-Debugging-Benchmarking/PDB-Multi)

Precise-Debugging-Benchmarking/PDB-Single-Hard

Viewer • 约 4 小时前更新 • 5.75k 下载 • 38 赞
(https://huggingface.co/datasets/Precise-Debugging-Benchmarking/PDB-Single-Hard)

Precise-Debugging-Benchmarking/PDB-Single

Viewer • 约 4 小时前更新 • 7.59k 下载 • 32 赞
(https://huggingface.co/datasets/Precise-Debugging-Benchmarking/PDB-Single)

引用该论文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2604.17338 即可在此显示。

收录该论文的合集 0

暂无合集收录

创建合集并添加该论文即可在此显示。

精准调试基准：你的模型在调试还是在重写？

论文页面 - 精准调试基准：你的模型是在调试，还是在重写？

摘要

引用该论文的模型 0

引用该论文的数据集 3

Precise-Debugging-Benchmarking/PDB-Multi

Precise-Debugging-Benchmarking/PDB-Single-Hard

Precise-Debugging-Benchmarking/PDB-Single

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

预测性数据调试：在训练前揭示并塑造模型所学（11分钟阅读）

Benchmarking Large Language Models on Floating-Point Error Classification

GENEB：为何基因组模型难以相互比较

评估在代码上训练的大型语言模型

新DeepSWE基准测试发现Claude Opus作弊

提交意见反馈