标签
普渡大学研究团队推出 Mango,一种多智能体网页导航系统,利用全局站点结构和汤普森采样选择最优起始 URL,在 WebVoyager 和 WebWalkerQA 基准测试中显著提升成功率。
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
Google Research 推出 ReasoningBank,一个让 LLM 智能体持续从成败经验中学习的记忆框架,可提升成功率与效率。
# 超越静态基准:基于角色模拟合成有害内容以实现鲁棒性评估 Source: [https://arxiv.org/html/2604.17020](https://arxiv.org/html/2604.17020) Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C\. Park Korea Advanced Institute of Science and Technology \(KAIST\) \{huijelee,jisu\.shin,hysong,pencaty,jongpark\}@kaist\.ac\.kr ###### Abstract 面向有害内容检测的静态基准在可扩展性与多样性方面存在局限,且可能受...
# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式
# HeLa-Mem: Hebbian Learning and Associative Memory for LLM Agents 来源:[https://arxiv.org/html/2604.16839](https://arxiv.org/html/2604.16839) Jinchang Zhu1,∗,a, Jindong Li1,∗, Cheng Zhang2,∗, Jiahong Liu3, Menglin Yang1,†,b 1香港科技大学(广州) 2吉林大学 3香港中文大学 [email protected] [email protected] ∗同等贡献 †通讯作者 ###### 摘要 长...
来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。
OpenAI 工程师在 Build Hour 中解释,有限的上下文窗口如何让 agent 陷入循环,并限制 LLM agent 的记忆增长。
奇妙智能体竞赛(AAR)推出了一个新的基准测试,包含1,400个有向无环图(DAG)谜题实例,用于评估LLM智能体在分叉-合并工具链和维基百科导航中的表现。评估结果显示,智能体在工具使用方面表现出色(错误率<17%),但在导航方面苦苦挣扎(27-52%的失败率),暴露了现有线性基准测试无法发现的关键差距。
ChemAmp 引入了一种工具增强范式,通过动态协调专门的化学工具(UniMol2、Chemformer)作为可组合智能体来增强分子任务的性能。该框架性能超越了化学专用模型,并相比传统多智能体系统将推理令牌成本降低了 94%。
FS-Researcher 引入了一个基于文件系统的双代理框架,通过利用持久化外部内存作为共享工作区,使 LLM 代理能够突破上下文窗口限制进行深度研究。该框架在研究基准测试上实现了最先进的结果,并通过向证据收集分配计算来展现有效的测试时扩展能力。
EnvScaler是一个自动化框架,通过程序综合为LLM智能体扩展工具交互环境,创建了191个多样化环境和7K个场景,以提升智能体在多轮、多工具交互任务上的性能。
本文提出经验压缩谱,这是一个统一框架,将agent记忆、技能发现和基于规则的系统沿单一递增压缩轴集成(情景记忆5-20倍,程序性技能50-500倍,声明性规则1000倍以上)。工作识别出一个关键缺口——‘缺失对角线’——表明现有系统在固定压缩级别运行,缺乏自适应跨级别支持,并阐述了可扩展全谱agent学习系统的设计原则。
本论文引入预注册信念修正合约(PBRC),这是一种用于多智能体系统(包括基于大语言模型的智能体)的协议级机制,通过公开固定证据触发器和修正算子来将开放通信与可接纳的信念变化分离。该工作解决了智能体协商中的危险从众效应,并提供了形式化保证确保纯粹的社会压力不会驱动虚假共识。
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。
引入 MPT 基准和 PRefine 方法,用于跨会话个性化工具调用,以极低 token 开销捕捉用户选择背后的推理。
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,