LLM智能体能够查看代码仓库
摘要
本文首次系统性地实证研究了使用可视化仓库表示来增强基于LLM的编码智能体,结果表明,将可视化图作为补充模态集成,可以在保持或提高问题解决准确率的同时,将令牌消耗降低高达26%。
查看缓存全文
缓存时间: 2026/06/15 09:04
论文页面 - LLM 智能体能够看见代码仓库
来源:https://huggingface.co/papers/2606.14061
摘要
视觉仓库表示通过增强结构理解并减少问题解决过程中的令牌消耗,提升了基于 LLM 的编码智能体性能。
由大语言模型驱动的编码智能体在软件工程任务中展现了强劲表现。然而,大多数智能体几乎完全以文本形式消费仓库,这与人类开发者利用视觉结构(如文件夹层次结构和依赖关系)在大型代码库中定位自身的方式不同。借助多模态大语言模型 (https://huggingface.co/papers?q=multimodal%20large%20language%20models) (MLLMs),智能体能否有效从仓库的视觉表示 (https://huggingface.co/papers?q=visual%20representations) 中获益仍是一个开放问题。本文首次对基于 LLM 的智能体在仓库级问题解决 (https://huggingface.co/papers?q=repository-level%20issue%20resolution) 中采用视觉仓库表示进行了系统性的实证研究。我们评估了四种最新的多模态模型。结果表明,纯粹的仅视觉设置 (https://huggingface.co/papers?q=vision-only%20setup) 会降低准确率并增加令牌成本,因为智能体缺乏足够的符号细节 (https://huggingface.co/papers?q=symbolic%20detail) 并依赖重复的视觉查询来弥补。相比之下,将仓库结构的视觉图 (https://huggingface.co/papers?q=visual%20graphs) 作为标准文本接口之外的补充模态集成,有助于智能体更高效地理解结构:输入令牌消耗最多降低 26%,同时问题解决准确率得以保持或提升。可视化在故障定位 (https://huggingface.co/papers?q=fault%20localization) 以及智能体自主控制探索深度 (https://huggingface.co/papers?q=exploration%20depth) 时最为有用。这些发现为下一代编码智能体指明了实用的文本与视觉混合设计方向。
查看 arXiv 页面 (https://arxiv.org/abs/2606.14061) 查看 PDF (https://arxiv.org/pdf/2606.14061) GitHub6 (https://github.com/cslsolow/SeeRepo) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14061)
在您的智能体中获取这篇论文:
hf papers read 2606.14061
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.14061 即可从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.14061 即可从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.14061 即可从此页面链接。
包含此论文的收藏0
无收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
我构建了一个开源编码代理,让上下文可见且可编辑 — 你可以精确策划大语言模型所看到的内容
作者构建了 Nice Coding Agent,这是一个开源编码工作台,具有可见且可编辑的上下文堆栈,允许用户精确策划大语言模型所看到的内容。它具备本地优先检索、沙盒执行和混合代码搜索功能,旨在让开发者对上下文组装拥有控制和可见性。
你的LLM提示词有200行。你真的知道智能体遵从了多少吗?
本文讨论了在生产环境中评估和监控基于LLM的智能体所面临的挑战,涵盖离线评估、提示工程陷阱、可观测性工具、审查队列、标注、聚类、主题分类,以及将人工审查、LLM作为评判和小型分类器进行成本分层的方法。
agents.md文件对编码代理有帮助吗?
这篇论文评估了诸如AGENTS.md或CLAUDE.md等仓库级上下文文件是否能提升编码代理的性能,发现由LLM生成的上下文文件几乎无益甚至可能降低效率,而开发者编写的文件效果稍好,但优势仍不明确。
迈向可安全审计的大模型智能体:一种统一的图表示方法
本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。
社会科学中的AI编码智能体:方法论多样、经验一致、解释脆弱
本文评估了基于LLM的编码智能体(Claude Code和Codex)在社会科学分析中的表现,发现它们在方法论多样性方面匹配或超越人类,但在通过结论层操纵产生的解释偏差方面仍然脆弱。