标签
Metis 开展了一项对比文本记忆与代码记忆的受控研究,发现两者具有互补的权衡特性。它提出了一种分层双表示记忆系统,在 AppWorld 基准测试中,任务准确率最高提升 20.6%,执行成本最高降低 22.8%。
SEAGym是一个新的评估环境,用于自进化LLM代理,它衡量代理框架在训练、验证、测试、重放和成本记录上的更新,提供关于进化过程的互补信号。
OPD-Evolver 提出了一种自我进化智能体框架,采用慢-快协同进化与在线策略自蒸馏,以增强记忆管理和策略学习,在多个领域基准测试中优于 ReasoningBank 和 Skill0 等现有方法。
对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。
PACE 为自进化代理引入了一种任意有效的提交门,它用序贯假设检验替代贪婪接受,控制错误提交概率,减少震荡,同时保持性能且方差更低。
本文介绍了FinEvolveBench(一个用于金融情感预测的基准测试)和Tree-of-Experience(ToE,一种针对低重复性任务和隐式奖励的LLM智能体的结构化经验管理方法)。实验表明,在此类挑战性场景中,ToE优于通用经验机制。
Socratic-SWE 提出了一种用于软件工程智能体的闭环自进化框架,该框架利用历史求解轨迹生成针对性修复任务,经过三次迭代后在 SWE-bench Verified 上达到 50.40%。
来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。
OpenSkill是一个框架,让LLM智能体能够从开放世界资源中自进化技能和验证信号,无需目标任务监督,在多个基准测试中实现高性能。
EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。
本文介绍了 ExpWeaver 框架,该框架优化了自我进化语言模型智能体在运行时决策过程中如何利用过往经验。研究表明,基于推理不确定性选择性调用经验,能在多种环境和模型中提升性能。
本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上,并引入航点覆盖奖励(Waypoint Coverage Reward)以实现分级部分奖励,从而解决了搜索自博弈(Search Self-Play)中的瓶颈问题。
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。
# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式