标签
本文全面梳理了截至2026年中,AI Agent记忆(Memory)的完整架构分层,包括规则文件、常驻画像、历史召回和证据链,阐述了不同层次记忆的存储方式、加载时机和治理原则,强调记忆在帮助Agent实现跨会话复利工作中的关键作用。
MEMPROBE是一个基准,通过从智能体交互后的记忆中重建隐藏用户状态,来评估大语言模型智能体的长期记忆能力。
ReM-MoA 引入了一种记忆增强的混合智能体框架,通过排序推理记忆和策划的多样化记忆路由来维持扩展,在五个推理基准测试中优于之前的 MoA 变体。
本文介绍了 LemonHarness,一个面向长周期 LLM 智能体的集成执行框架。该框架将状态变更操作限制在清晰定义的 workspace 内,引入可复用的规则知识库,并增加了时间感知执行功能。在 Terminal-Bench 2.0 上实现了 84-86% 的准确率。
Metis 开展了一项对比文本记忆与代码记忆的受控研究,发现两者具有互补的权衡特性。它提出了一种分层双表示记忆系统,在 AppWorld 基准测试中,任务准确率最高提升 20.6%,执行成本最高降低 22.8%。
作者认为,AI 代理的可靠性来自于确定性代码,而非 LLM,并分享了在混乱的真实世界数据上构建可信代理的五项关键实践。
本文提出EDV框架,在执行-提炼-验证阶段使用多个异构智能体为LLM智能体构建可靠经验,防止自我确认错误,并提升在长周期基准测试上的性能。
一篇博客文章,总结了十个最新的智能体强化学习框架和最佳实践,涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。
本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。
本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。
CLI-Universe是一个合成引擎,通过多维能力分类体系和证据引导的研究生成可验证的终端代理任务,并产生包含6000条轨迹的精炼数据集。在该数据集上微调Qwen3-32B,在Terminal-Bench 2.0上达到了33.4%,为参数量在32B及以下的开源模型树立了新的最优水平。
Libretto提出了一种结构化框架,用于符号音乐生成与修改,采用LLM原生语法和经语料库校准的统计评估,涵盖多个音乐维度,使LLM代理能够将音乐视为可测量和可编辑的对象。
PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。
ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。
本文探讨自主智能(autotelic AI),即智能体自主生成目标,并讨论其对内在动机、具身性以及自我界限消解的影响。提出一个扩展到量子形式、非二元哲学和基于大语言模型实例化的框架。
提出了多智能体交易记忆(MATM)框架,用于在种群级别存储和检索智能体生成的轨迹,以提高任务性能并减少交互步骤,适用于ALFWorld和WebArena等交互环境。
本文提出了一个用于AI辅助法律发现的Human-on-the-Loop编排框架,引入了代理故障分类法和四层验证架构,以降低特权放弃风险。
本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。
本文针对LLM Agent提出了一种基于提示的不确定性分解方法,将行动置信度与请求不确定性分离,使其能在未明确指定的任务中主动寻求澄清。该方法在五个LLM骨干网络上使用新的澄清增强基准进行了评估,显示出显著改进。