llm-agents

标签

Cards List
#llm-agents

面向LLM Agent澄清请求的不确定性分解

arXiv cs.AI · 4天前 缓存

本文针对LLM Agent提出了一种基于提示的不确定性分解方法,将行动置信度与请求不确定性分离,使其能在未明确指定的任务中主动寻求澄清。该方法在五个LLM骨干网络上使用新的澄清增强基准进行了评估,显示出显著改进。

0 人收藏 0 人点赞
#llm-agents

@dair_ai:关于LLM智能体长期记忆的优秀论文。(收藏)粗粒度的摘要会偏移,无约束的更新会导致信息损坏,……

X AI KOLs Following · 4天前 缓存

AtomMem 为 LLM 智能体引入了一种长期记忆系统,将原子事实作为高效记忆单元,将其组织成层次化的事件结构和时间用户画像,在 LoCoMo 基准上达到了最先进水平。

0 人收藏 0 人点赞
#llm-agents

CalVerT:使用校准验证器遥测增强智能体,改善知识密集型任务中的行动与学习

Hugging Face Daily Papers · 5天前 缓存

CalVerT 为 LLM 智能体引入了校准验证器遥测,提供置信度和基础分数,以减少过度检索和无依据的答案,提升知识密集型问答任务的性能。

0 人收藏 0 人点赞
#llm-agents

令牌压缩幻象:为什么我对RTK持怀疑态度

Hacker News Top · 5天前 缓存

本文批评了RTK,一种用于LLM代理的令牌压缩工具,认为其声称的60-90%成本节省具有误导性,引入了静默失败风险,缺乏严格的准确性基准,并且作为独立产品在结构上脆弱。

0 人收藏 0 人点赞
#llm-agents

缓解基于LLM的智能体中的锚定偏差以实现节能6G自治网络

arXiv cs.AI · 6天前 缓存

本文提出了一种随机锚定策略,用于缓解基于LLM的智能体中的锚定偏差,以实现节能的6G自治网络,使用轻量级1B参数模型实现了高达25%的节能。

0 人收藏 0 人点赞
#llm-agents

LLMZero:通过LLM智能体发现强化学习后训练的自适应训练策略

arXiv cs.LG · 6天前 缓存

LLMZero利用LLM智能体通过树搜索在训练轨迹中进行搜索,发现用于强化学习后训练的自适应多参数过渡策略,该策略在多种任务中优于固定调度和网格搜索。

0 人收藏 0 人点赞
#llm-agents

将搜索与推理解耦:一种供应商无关的LLM智能体接地架构

arXiv cs.AI · 6天前 缓存

本文介绍了去耦搜索接地(DSG)——一种供应商无关的架构,它将搜索检索与LLM推理分离,从而能够对提供商路由、缓存和输出合约进行显式控制。实验表明,DSG在成本降低91%和延迟降低68%的情况下,几乎达到了原生搜索的准确率。

0 人收藏 0 人点赞
#llm-agents

超越静态排行榜:LLM智能体评估的预测有效性

Hugging Face Daily Papers · 6天前 缓存

本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。

0 人收藏 0 人点赞
#llm-agents

@DivyanshT91162: 人工智能行业花费数十亿美元解决一个52年前的终端命令早已解决的问题。在过去的…

X AI KOLs Timeline · 6天前 缓存

一条Twitter帖子指出,人工智能行业在RAG的向量检索系统上投入巨资可能并无必要,因为52年前的终端命令'grep'在AI代理上下文中进行精确匹配时表现优于现代语义搜索。

0 人收藏 0 人点赞
#llm-agents

@bibryam: Autogenesis:自我演化型智能体协议 https://arxiv.org/abs/2604.15034 tl;dr:将每个智能体组件视为版本控制的资源,可自动改进与回滚

X AI KOLs Timeline · 2026-06-17 缓存

介绍了 Autogenesis 协议(AGP),这是一种自我演化型智能体协议,将组件的演化过程解耦,支持对基于 LLM 的多智能体系统中的提示词、智能体、工具、环境和记忆进行生命周期管理、版本追踪和安全回滚。

0 人收藏 0 人点赞
#llm-agents

@neural_avb: 关于LLM智能体图记忆的最新论文

X AI KOLs Timeline · 2026-06-17 缓存

一篇新论文介绍了适用于LLM智能体的图记忆。

0 人收藏 0 人点赞
#llm-agents

面向LLM智能体的组合式技能路由:分解、检索与组合

arXiv cs.CL · 2026-06-17 缓存

介绍了SkillWeaver,一个用于将多个技能路由到LLM智能体的分解-检索-组合框架,以及CompSkillBench,一个包含300个组合查询的基准测试,涵盖2,209个真实MCP服务器技能。

0 人收藏 0 人点赞
#llm-agents

基于环境的LLM游戏智能体自动提示优化

arXiv cs.CL · 2026-06-17 缓存

介绍了一个针对LLM游戏智能体的自动提示优化框架,该框架将观察-行动流水线分解为两个智能体,并通过环境回报引导的进化循环迭代优化提示。在BabyAI任务上评估,显著提高了成功率(例如,在PutNext上从0%提升到72.5%),且无需更新模型权重。

0 人收藏 0 人点赞
#llm-agents

ProvenanceGuard: 基于MCP的LLM代理的源感知事实性验证

arXiv cs.AI · 2026-06-17 缓存

ProvenanceGuard是一种用于MCP驱动的LLM代理的源感知事实性验证器,它通过分解回答为原子声明、路由到特定源证据、检查支持并验证归因,解决了跨源混淆问题。在医疗领域的评估中,它达到了0.802的块F1和0.858的源准确率。

0 人收藏 0 人点赞
#llm-agents

EComAgentBench:面向长周期任务与分布式隐藏意图的购物代理基准测试

arXiv cs.AI · 2026-06-17 缓存

介绍EComAgentBench,一个用于评估基于LLM的购物代理在长周期任务中处理隐藏意图的基准测试,这些意图分布在查询、用户画像和澄清过程中。该基准测试使用真实的亚马逊产品并进行自动评分,结果显示即使是最佳模型也仅达到57.1%的准确率。

0 人收藏 0 人点赞
#llm-agents

闭环反馈:从经验提取到洞察治理的言语强化学习

arXiv cs.AI · 2026-06-17 缓存

本文识别了在非平稳环境中运行的 LLM 智能体在言语强化学习中面临的保留-遗忘困境,并提出了一种带有反馈驱动策展循环的三层架构,以管理洞察的提取和应用。

0 人收藏 0 人点赞
#llm-agents

SEAGym: 自进化LLM代理的评估环境

arXiv cs.AI · 2026-06-17 缓存

SEAGym是一个新的评估环境,用于自进化LLM代理,它衡量代理框架在训练、验证、测试、重放和成本记录上的更新,提供关于进化过程的互补信号。

0 人收藏 0 人点赞
#llm-agents

MapSatisfyBench: 通过基于行为的隐式决策因素评估满意度感知的地图代理

arXiv cs.AI · 2026-06-17 缓存

MapSatisfyBench是一个基准,用于评估基于LLM的地图代理从表述不明确的用户查询中恢复隐式决策因素的能力,将评估从任务完成转向满意度感知的空间决策。

0 人收藏 0 人点赞
#llm-agents

@DanKornas: 当记忆失去来源、修订或引用结构时,长周期研究代理会崩溃。PaperGuru-Benchmark …

X AI KOLs Timeline · 2026-06-17 缓存

PaperGuru-Benchmark 是一个开源基准测试和工件仓库,用于评估长周期 LLM 代理中生命周期感知的记忆,提供复现提交、调查输出和可重建的图表。

0 人收藏 0 人点赞
#llm-agents

GateMem:多主体共享记忆代理中的记忆治理基准评测

Hugging Face Daily Papers · 2026-06-17 缓存

GateMem是一个用于评估多主体共享记忆代理中记忆治理的基准,涵盖医疗、办公、教育和家庭领域的效用、访问控制和遗忘。当前方法无法同时平衡这三者,表明可靠的共享机构部署仍然难以实现。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈