LLM智能体能够查看代码仓库

Hugging Face Daily Papers 论文

摘要

本文首次系统性地实证研究了使用可视化仓库表示来增强基于LLM的编码智能体,结果表明,将可视化图作为补充模态集成,可以在保持或提高问题解决准确率的同时,将令牌消耗降低高达26%。

由大型语言模型驱动的编码智能体在软件工程任务中展现了强大的性能。然而,大多数智能体几乎完全以文本形式消费代码仓库,这与人类开发者如何利用文件夹层次结构和依赖关系等视觉结构来在大型代码库中定位自身的方式不同。对于多模态大型语言模型(MLLMs),智能体能否有效从仓库的可视化表示中受益仍是一个开放性问题。本文首次系统性地实证研究了基于LLM的智能体在仓库级问题解决中使用的可视化仓库表示。我们评估了四个最新的多模态模型。结果表明,严格仅视觉的设置会降低准确率并增加令牌成本,因为智能体缺乏足够的符号细节,并通过重复的视觉查询进行补偿。相比之下,将仓库结构的可视化图作为补充模态与标准文本界面集成,有助于智能体更高效地理解结构:输入令牌消耗降低高达26%,同时问题解决准确率得以保持或提高。可视化在故障定位以及智能体自主控制探索深度时最为有用。这些发现为下一代编码智能体指出了一个实用的文本与视觉混合设计。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:04

论文页面 - LLM 智能体能够看见代码仓库

来源:https://huggingface.co/papers/2606.14061

摘要

视觉仓库表示通过增强结构理解并减少问题解决过程中的令牌消耗,提升了基于 LLM 的编码智能体性能。

由大语言模型驱动的编码智能体在软件工程任务中展现了强劲表现。然而,大多数智能体几乎完全以文本形式消费仓库,这与人类开发者利用视觉结构(如文件夹层次结构和依赖关系)在大型代码库中定位自身的方式不同。借助多模态大语言模型 (https://huggingface.co/papers?q=multimodal%20large%20language%20models) (MLLMs),智能体能否有效从仓库的视觉表示 (https://huggingface.co/papers?q=visual%20representations) 中获益仍是一个开放问题。本文首次对基于 LLM 的智能体在仓库级问题解决 (https://huggingface.co/papers?q=repository-level%20issue%20resolution) 中采用视觉仓库表示进行了系统性的实证研究。我们评估了四种最新的多模态模型。结果表明,纯粹的仅视觉设置 (https://huggingface.co/papers?q=vision-only%20setup) 会降低准确率并增加令牌成本,因为智能体缺乏足够的符号细节 (https://huggingface.co/papers?q=symbolic%20detail) 并依赖重复的视觉查询来弥补。相比之下,将仓库结构的视觉图 (https://huggingface.co/papers?q=visual%20graphs) 作为标准文本接口之外的补充模态集成,有助于智能体更高效地理解结构:输入令牌消耗最多降低 26%,同时问题解决准确率得以保持或提升。可视化在故障定位 (https://huggingface.co/papers?q=fault%20localization) 以及智能体自主控制探索深度 (https://huggingface.co/papers?q=exploration%20depth) 时最为有用。这些发现为下一代编码智能体指明了实用的文本与视觉混合设计方向。

查看 arXiv 页面 (https://arxiv.org/abs/2606.14061) 查看 PDF (https://arxiv.org/pdf/2606.14061) GitHub6 (https://github.com/cslsolow/SeeRepo) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14061)

在您的智能体中获取这篇论文:

hf papers read 2606.14061

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.14061 即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.14061 即可从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.14061 即可从此页面链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

你的LLM提示词有200行。你真的知道智能体遵从了多少吗?

Reddit r/AI_Agents

本文讨论了在生产环境中评估和监控基于LLM的智能体所面临的挑战,涵盖离线评估、提示工程陷阱、可观测性工具、审查队列、标注、聚类、主题分类,以及将人工审查、LLM作为评判和小型分类器进行成本分层的方法。

agents.md文件对编码代理有帮助吗?

Hacker News Top

这篇论文评估了诸如AGENTS.md或CLAUDE.md等仓库级上下文文件是否能提升编码代理的性能,发现由LLM生成的上下文文件几乎无益甚至可能降低效率,而开发者编写的文件效果稍好,但优势仍不明确。

迈向可安全审计的大模型智能体:一种统一的图表示方法

arXiv cs.AI

本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。