标签
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。
关于智能体记忆的社区讨论显示,尽管在记录什么(如纯文本文件、分层记忆、事后总结)方面存在各种补丁方案,但未解决的问题是保留什么——检测失败是可处理的,但决定哪些教训应持续保留仍需要人类判断。
本文提出了一种四条件诊断协议,用于分离长上下文和检索增强语言模型中的无证据可答性、神谕证据可恢复性、全上下文利用以及检索条件利用,并在多个数据集上对五种开源权重模型进行了测试。
QueryAgent-R1是一个智能体框架,利用强化学习和记忆抽象桥接电商中的查询生成与商品检索,在线测试中查询点击率提升2.9%,转化率提升3.1%。
本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。
Mnemo是一个开源、本地优先的记忆层,适用于任何LLM,它使用SQLite和petgraph将实体和关系提取到持久化知识图谱中,提供自动上下文注入以增强对话。
一份精选的顶级模型、引擎、库和数据集的列表,用于晚期交互多向量检索,组织在'Awesome Multivector Retrieval'资源中。
提出SENSE,一种用于检索式推测解码的语义嵌入导航方法,利用隐状态进行语义对齐和软门控评估,在LLaMA和Qwen系列上实现高达3.26倍加速,同时保持生成质量。
ExpGraph是一个模型无关的框架,通过自进化的技能与失败经验图,使LLM智能体能够复用过往经验,在不重新训练执行器的情况下将任务性能提升12%-21%。
本文提出了一种替代架构,使用径向基函数(RBF)网络,消除了深度神经网络,并以闭合形式找到全局最优解,无需迭代训练。还回顾了其他非DNN方法,如KANs和k-NN检索,并通过案例研究展示了增强的可解释性和更快的训练速度。
本文将上下文蒸馏表述为一个潜在记忆管理问题,提出一个框架,将蒸馏后的上下文存储为独立的LoRA适配器,并通过检索、路由和自门控机制来提高鲁棒性和效率。
本文介绍了微宏观检索(M2R),一种边检索边生成的框架,通过确保关键信息紧邻生成文本,减少长文本LLM输出中的幻觉。它使用基于课程学习的强化学习来训练检索和接地技能,在长上下文场景中尤其有效。
提出RAG4Outcome,一种整合多模态临床数据(PET-CT报告、手术记录、随访笔记)的检索增强生成框架,用于改善慢性骨髓炎的预后预测,增强可解释性和临床可靠性。
AI记忆系统随着时间的推移往往会回忆起过时或错误的信息,凸显了为AI智能体维护长期记忆信任度的挑战。
本文針對高風險醫療檢索增強生成(RAG)提出聲明選擇性認證,將響應分解為可驗證的聲明,並根據證據進行評分,通過意圖感知選擇器產生操作(完整、部分、衝突、棄權),實現了低無支持聲明風險和高操作準確性。
介绍 OGCaReBench,这是一个自由形式的检索基准,用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明,即使是最好的模型也仅能达到 56% 的准确率,但检索增强将性能提升至 82%。
佛罗里达大学Gators团队提交至AmericasNLP 2026共享任务,该任务涉及面向土著语言的文化图像描述。我们采用双阶段流水线:使用Qwen2.5-VL生成西班牙语中间描述,然后通过检索增强的多示例提示,利用Gemini 2.5 Flash生成目标语言描述。与基线相比,取得了显著提升。
一项关于检测政治文本中施瓦茨价值观的系统研究,比较了上下文长度、模型大小和检索增强生成方法。结果表明,全文上下文能提升监督模型性能但对零样本大语言模型无效,而检索到的道德知识通过早期融合始终有所帮助。
BELIEF是一个面向生物医学问答的结构化证据建模与不确定性感知融合框架,它将检索到的文档转化为证据对象,并结合符号化Dempster-Shafer推理与基于LLM的推理。在PubMedQA、MedQA和MedMCQA上的实验表明,BELIEF在大多数设置下取得了最先进的结果。
Lean Refactor 提出了一种检索增强的智能体框架,用于对 Lean 证明进行多目标、可控且鲁棒的版本重构,实现了显著的压缩和编译时间减少。