标签
ContextSniper是一个令牌高效的代码记忆层,用于使用LLM代理进行仓库级程序修复。它在SWE-bench Lite上将令牌使用量降低高达51.5%,成本降低高达36.4%,同时保持相似的解决率。
本文提出了一种基于检索的小型语言模型框架,将形式概念分析用作本体构建的符号验证循环,并在罕见共济失调场景中展示了其有效性。
本文提出了一种因果审计框架,通过在推理过程中改变数据库状态来评估有限记忆语言模型中的遗忘情况,发现参数泄漏可忽略不计,删除后的正确性主要源于检索伪影而非残留的参数记忆。
本文介绍了HistoriQA-ThirdRepublic,一个基于法兰西第三共和国历史文献的法语多跳问答数据集,旨在评估检索增强和大型语言模型系统在历史研究场景中的表现。
本文提出一种五臂消融方法论,用于诊断检索预热能量基推理(RW-EBR)中哪个组件驱动性能提升,应用于图可达性和数独等结构推理任务。该方法分离了类先验偏差、随机预热启动和图对齐值重用三种效应的影响。
This paper from SJTU and Tsinghua systematically evaluates 12 agent memory systems from a data management perspective, decomposing memory into four modules and providing guidelines on when to use RAG, vector databases, or knowledge graphs for long-term agent memory.
本文介绍了一种使用冻结基础模型的可穿戴压力检测检索增强个性化方法,无需标记用户数据即可实现接近监督微调的性能。
本文介绍了RASC+,一种用于临床值集编制的检索约束型大语言模型裁决方法,其通过基于Qwen3的检索和盲目裁决,提升了候选集召回率和选择精度,显著优于RASC基线中的直接生成方法。
ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。
提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。
介绍了SkillWeaver,一个用于将多个技能路由到LLM智能体的分解-检索-组合框架,以及CompSkillBench,一个包含300个组合查询的基准测试,涵盖2,209个真实MCP服务器技能。
一篇研究论文,提出了一种统一的智能体检索框架,用于自主上下文感知数据质量评估。该框架解释自然语言使用描述,通过多智能体工作流生成可执行验证逻辑,并使用可行性验证来确保可靠性。
本文介绍了DRIVE,一个统一的基于Transformer的离线自动出价框架,它将候选动作生成与决策制定解耦,结合了分布性动作建模、检索增强的候选生成和基于价值的评估,以在预算和成本约束下提高出价性能。
本文介绍了一种检索增强的视觉-语言-动作策略,通过使用预训练模型和索引演示,消除了每个任务的微调,实现了高效的跨本体泛化和测试时的任务适应。
描述了一种改进智能体记忆搜索的方法:受一篇论文启发,将基于 grep 的精确匹配与向量嵌入相结合;在其记忆层中实现了显著的召回率提升。
本文介绍了PersonaDrive,一种将视觉-语言-动作(VLA)驾驶智能体基于从风格引导的人类驾驶数据集中检索到的演示进行条件化的流程,从而能够为闭环仿真提供风格多样的非自车智能体,并在Bench2Drive上提升了驾驶评分。
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。
关于智能体记忆的社区讨论显示,尽管在记录什么(如纯文本文件、分层记忆、事后总结)方面存在各种补丁方案,但未解决的问题是保留什么——检测失败是可处理的,但决定哪些教训应持续保留仍需要人类判断。
本文提出了一种四条件诊断协议,用于分离长上下文和检索增强语言模型中的无证据可答性、神谕证据可恢复性、全上下文利用以及检索条件利用,并在多个数据集上对五种开源权重模型进行了测试。
QueryAgent-R1是一个智能体框架,利用强化学习和记忆抽象桥接电商中的查询生成与商品检索,在线测试中查询点击率提升2.9%,转化率提升3.1%。