标签
本文针对LLM Agent提出了一种基于提示的不确定性分解方法,将行动置信度与请求不确定性分离,使其能在未明确指定的任务中主动寻求澄清。该方法在五个LLM骨干网络上使用新的澄清增强基准进行了评估,显示出显著改进。
AtomMem 为 LLM 智能体引入了一种长期记忆系统,将原子事实作为高效记忆单元,将其组织成层次化的事件结构和时间用户画像,在 LoCoMo 基准上达到了最先进水平。
CalVerT 为 LLM 智能体引入了校准验证器遥测,提供置信度和基础分数,以减少过度检索和无依据的答案,提升知识密集型问答任务的性能。
本文批评了RTK,一种用于LLM代理的令牌压缩工具,认为其声称的60-90%成本节省具有误导性,引入了静默失败风险,缺乏严格的准确性基准,并且作为独立产品在结构上脆弱。
本文提出了一种随机锚定策略,用于缓解基于LLM的智能体中的锚定偏差,以实现节能的6G自治网络,使用轻量级1B参数模型实现了高达25%的节能。
LLMZero利用LLM智能体通过树搜索在训练轨迹中进行搜索,发现用于强化学习后训练的自适应多参数过渡策略,该策略在多种任务中优于固定调度和网格搜索。
本文介绍了去耦搜索接地(DSG)——一种供应商无关的架构,它将搜索检索与LLM推理分离,从而能够对提供商路由、缓存和输出合约进行显式控制。实验表明,DSG在成本降低91%和延迟降低68%的情况下,几乎达到了原生搜索的准确率。
本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。
一条Twitter帖子指出,人工智能行业在RAG的向量检索系统上投入巨资可能并无必要,因为52年前的终端命令'grep'在AI代理上下文中进行精确匹配时表现优于现代语义搜索。
介绍了 Autogenesis 协议(AGP),这是一种自我演化型智能体协议,将组件的演化过程解耦,支持对基于 LLM 的多智能体系统中的提示词、智能体、工具、环境和记忆进行生命周期管理、版本追踪和安全回滚。
介绍了SkillWeaver,一个用于将多个技能路由到LLM智能体的分解-检索-组合框架,以及CompSkillBench,一个包含300个组合查询的基准测试,涵盖2,209个真实MCP服务器技能。
介绍了一个针对LLM游戏智能体的自动提示优化框架,该框架将观察-行动流水线分解为两个智能体,并通过环境回报引导的进化循环迭代优化提示。在BabyAI任务上评估,显著提高了成功率(例如,在PutNext上从0%提升到72.5%),且无需更新模型权重。
ProvenanceGuard是一种用于MCP驱动的LLM代理的源感知事实性验证器,它通过分解回答为原子声明、路由到特定源证据、检查支持并验证归因,解决了跨源混淆问题。在医疗领域的评估中,它达到了0.802的块F1和0.858的源准确率。
介绍EComAgentBench,一个用于评估基于LLM的购物代理在长周期任务中处理隐藏意图的基准测试,这些意图分布在查询、用户画像和澄清过程中。该基准测试使用真实的亚马逊产品并进行自动评分,结果显示即使是最佳模型也仅达到57.1%的准确率。
本文识别了在非平稳环境中运行的 LLM 智能体在言语强化学习中面临的保留-遗忘困境,并提出了一种带有反馈驱动策展循环的三层架构,以管理洞察的提取和应用。
SEAGym是一个新的评估环境,用于自进化LLM代理,它衡量代理框架在训练、验证、测试、重放和成本记录上的更新,提供关于进化过程的互补信号。
MapSatisfyBench是一个基准,用于评估基于LLM的地图代理从表述不明确的用户查询中恢复隐式决策因素的能力,将评估从任务完成转向满意度感知的空间决策。
PaperGuru-Benchmark 是一个开源基准测试和工件仓库,用于评估长周期 LLM 代理中生命周期感知的记忆,提供复现提交、调查输出和可重建的图表。
GateMem是一个用于评估多主体共享记忆代理中记忆治理的基准,涵盖医疗、办公、教育和家庭领域的效用、访问控制和遗忘。当前方法无法同时平衡这三者,表明可靠的共享机构部署仍然难以实现。