llm-agents

#llm-agents

面向LLM Agent澄清请求的不确定性分解

arXiv cs.AI ↗ · 4天前缓存

本文针对LLM Agent提出了一种基于提示的不确定性分解方法，将行动置信度与请求不确定性分离，使其能在未明确指定的任务中主动寻求澄清。该方法在五个LLM骨干网络上使用新的澄清增强基准进行了评估，显示出显著改进。

0 人收藏 0 人点赞

#llm-agents

@dair_ai：关于LLM智能体长期记忆的优秀论文。（收藏）粗粒度的摘要会偏移，无约束的更新会导致信息损坏，……

X AI KOLs Following ↗ · 4天前缓存

AtomMem 为 LLM 智能体引入了一种长期记忆系统，将原子事实作为高效记忆单元，将其组织成层次化的事件结构和时间用户画像，在 LoCoMo 基准上达到了最先进水平。

0 人收藏 0 人点赞

#llm-agents

CalVerT：使用校准验证器遥测增强智能体，改善知识密集型任务中的行动与学习

Hugging Face Daily Papers ↗ · 5天前缓存

CalVerT 为 LLM 智能体引入了校准验证器遥测，提供置信度和基础分数，以减少过度检索和无依据的答案，提升知识密集型问答任务的性能。

0 人收藏 0 人点赞

#llm-agents

令牌压缩幻象：为什么我对RTK持怀疑态度

Hacker News Top ↗ · 5天前缓存

本文批评了RTK，一种用于LLM代理的令牌压缩工具，认为其声称的60-90%成本节省具有误导性，引入了静默失败风险，缺乏严格的准确性基准，并且作为独立产品在结构上脆弱。

0 人收藏 0 人点赞

#llm-agents

缓解基于LLM的智能体中的锚定偏差以实现节能6G自治网络

arXiv cs.AI ↗ · 6天前缓存

本文提出了一种随机锚定策略，用于缓解基于LLM的智能体中的锚定偏差，以实现节能的6G自治网络，使用轻量级1B参数模型实现了高达25%的节能。

0 人收藏 0 人点赞

#llm-agents

LLMZero：通过LLM智能体发现强化学习后训练的自适应训练策略

arXiv cs.LG ↗ · 6天前缓存

LLMZero利用LLM智能体通过树搜索在训练轨迹中进行搜索，发现用于强化学习后训练的自适应多参数过渡策略，该策略在多种任务中优于固定调度和网格搜索。

0 人收藏 0 人点赞

#llm-agents

将搜索与推理解耦：一种供应商无关的LLM智能体接地架构

arXiv cs.AI ↗ · 6天前缓存

本文介绍了去耦搜索接地（DSG）——一种供应商无关的架构，它将搜索检索与LLM推理分离，从而能够对提供商路由、缓存和输出合约进行显式控制。实验表明，DSG在成本降低91%和延迟降低68%的情况下，几乎达到了原生搜索的准确率。

0 人收藏 0 人点赞

#llm-agents

超越静态排行榜：LLM智能体评估的预测有效性

Hugging Face Daily Papers ↗ · 6天前缓存

本文认为，针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度，并且表现出排名不稳定性。文章提出根据预测有效性（即样本内排名与样本外排名之间的相关性）来对配置进行排序，并引入了一个十二层级的测量体系以及可证伪的分布外准则。

0 人收藏 0 人点赞

#llm-agents

@DivyanshT91162: 人工智能行业花费数十亿美元解决一个52年前的终端命令早已解决的问题。在过去的…

X AI KOLs Timeline ↗ · 6天前缓存

一条Twitter帖子指出，人工智能行业在RAG的向量检索系统上投入巨资可能并无必要，因为52年前的终端命令'grep'在AI代理上下文中进行精确匹配时表现优于现代语义搜索。

0 人收藏 0 人点赞

#llm-agents

@bibryam: Autogenesis：自我演化型智能体协议 https://arxiv.org/abs/2604.15034 tl;dr：将每个智能体组件视为版本控制的资源，可自动改进与回滚

X AI KOLs Timeline ↗ · 2026-06-17 缓存

介绍了 Autogenesis 协议（AGP），这是一种自我演化型智能体协议，将组件的演化过程解耦，支持对基于 LLM 的多智能体系统中的提示词、智能体、工具、环境和记忆进行生命周期管理、版本追踪和安全回滚。

0 人收藏 0 人点赞

#llm-agents

@neural_avb: 关于LLM智能体图记忆的最新论文

X AI KOLs Timeline ↗ · 2026-06-17 缓存

一篇新论文介绍了适用于LLM智能体的图记忆。

0 人收藏 0 人点赞

#llm-agents

面向LLM智能体的组合式技能路由：分解、检索与组合

arXiv cs.CL ↗ · 2026-06-17 缓存

介绍了SkillWeaver，一个用于将多个技能路由到LLM智能体的分解-检索-组合框架，以及CompSkillBench，一个包含300个组合查询的基准测试，涵盖2,209个真实MCP服务器技能。

0 人收藏 0 人点赞

#llm-agents

基于环境的LLM游戏智能体自动提示优化

arXiv cs.CL ↗ · 2026-06-17 缓存

介绍了一个针对LLM游戏智能体的自动提示优化框架，该框架将观察-行动流水线分解为两个智能体，并通过环境回报引导的进化循环迭代优化提示。在BabyAI任务上评估，显著提高了成功率（例如，在PutNext上从0%提升到72.5%），且无需更新模型权重。

0 人收藏 0 人点赞

#llm-agents

ProvenanceGuard: 基于MCP的LLM代理的源感知事实性验证

arXiv cs.AI ↗ · 2026-06-17 缓存

ProvenanceGuard是一种用于MCP驱动的LLM代理的源感知事实性验证器，它通过分解回答为原子声明、路由到特定源证据、检查支持并验证归因，解决了跨源混淆问题。在医疗领域的评估中，它达到了0.802的块F1和0.858的源准确率。

0 人收藏 0 人点赞

#llm-agents

EComAgentBench：面向长周期任务与分布式隐藏意图的购物代理基准测试

arXiv cs.AI ↗ · 2026-06-17 缓存

介绍EComAgentBench，一个用于评估基于LLM的购物代理在长周期任务中处理隐藏意图的基准测试，这些意图分布在查询、用户画像和澄清过程中。该基准测试使用真实的亚马逊产品并进行自动评分，结果显示即使是最佳模型也仅达到57.1%的准确率。

0 人收藏 0 人点赞

#llm-agents

闭环反馈：从经验提取到洞察治理的言语强化学习

arXiv cs.AI ↗ · 2026-06-17 缓存

本文识别了在非平稳环境中运行的 LLM 智能体在言语强化学习中面临的保留-遗忘困境，并提出了一种带有反馈驱动策展循环的三层架构，以管理洞察的提取和应用。

0 人收藏 0 人点赞

#llm-agents

SEAGym: 自进化LLM代理的评估环境

arXiv cs.AI ↗ · 2026-06-17 缓存

SEAGym是一个新的评估环境，用于自进化LLM代理，它衡量代理框架在训练、验证、测试、重放和成本记录上的更新，提供关于进化过程的互补信号。

0 人收藏 0 人点赞

#llm-agents

MapSatisfyBench: 通过基于行为的隐式决策因素评估满意度感知的地图代理

arXiv cs.AI ↗ · 2026-06-17 缓存

MapSatisfyBench是一个基准，用于评估基于LLM的地图代理从表述不明确的用户查询中恢复隐式决策因素的能力，将评估从任务完成转向满意度感知的空间决策。

0 人收藏 0 人点赞

#llm-agents

@DanKornas: 当记忆失去来源、修订或引用结构时，长周期研究代理会崩溃。PaperGuru-Benchmark …

X AI KOLs Timeline ↗ · 2026-06-17 缓存

PaperGuru-Benchmark 是一个开源基准测试和工件仓库，用于评估长周期 LLM 代理中生命周期感知的记忆，提供复现提交、调查输出和可重建的图表。

0 人收藏 0 人点赞

#llm-agents

GateMem：多主体共享记忆代理中的记忆治理基准评测

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

GateMem是一个用于评估多主体共享记忆代理中记忆治理的基准，涵盖医疗、办公、教育和家庭领域的效用、访问控制和遗忘。当前方法无法同时平衡这三者，表明可靠的共享机构部署仍然难以实现。

0 人收藏 0 人点赞

llm-agents

提交意见反馈