FORGE:通过群体广播实现无需权重更新的自演化智能体记忆
摘要
FORGE是一种协议,使LLM智能体能够通过群体广播无需权重更新地演化其记忆,将失败轨迹转化为可复用的知识构件。在CybORG CAGE-2网络防御任务中,相较于零样本和Reflexion基线,该协议在多个LLM家族上显著提升了性能。
arXiv:2605.16233v1 公告类型:新
摘要:LLM智能体能否通过自生成记忆(无需梯度更新)来改进决策?我们提出FORGE(失败优化反思式渐进与演化),这是一种分阶段、基于群体的协议,用于演化为分层ReAct智能体注入提示的自然语言记忆。FORGE包裹了一个Reflexion风格的内循环,其中专门的反思智能体(使用相同的底层LLM,无来自更强模型的蒸馏)将失败的轨迹转化为可复用的知识构件:文本启发式(规则)、少样本演示(示例)或两者混合(混合),外循环则在阶段间将表现最佳实例的记忆传播给群体,并通过毕业标准冻结收敛的实例。我们在CybORG CAGE-2(一个随机网络防御POMDP,30步时间范围,对抗B-line攻击者)上进行了评估,所有四个测试的LLM家族(Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick、Qwen3-235B)均表现出强烈负值、重尾分布的零样本奖励。与零样本基线和Reflexion基线(孤立的单流学习)相比,在所有12个模型-表示条件下,FORGE将平均评估回报提高了零样本的1.7-7.7倍,比Reflexion提高了29-72%,将重大失败率(低于-100)降至约1%。我们发现:(1)群体广播是关键机制,无毕业消融实验证实广播带来了性能提升,而毕业主要节省计算资源;(2)对于三个模型,“示例”实现了最强的回报,“规则”提供了最佳的成本-可靠性曲线,节省约40%的令牌;(3)较弱的基线模型获益更大,表明FORGE可能弥合能力差距,而非放大强模型。所有证据仅限于CAGE-2 B-line;跨家族发现为方向性证据。
相似文章
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
FlashEvolve:通过异步阶段编排加速智能体自我进化
FlashEvolve 是一个框架,它利用异步阶段编排和工件版本追踪来加速基于大语言模型(LLM)的智能体自我进化。与同步执行方法相比,它显著提高了吞吐量和 token 效率。
通过参数化记忆扩展自进化智能体
来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。
HAGE: 通过强化学习驱动加权图演化利用智能体记忆
HAGE引入了一种加权多关系记忆框架,能够在统一关系记忆图上实现查询条件化的遍历,通过自适应记忆检索和基于强化学习的优化来提高长程推理准确性。
从存储到经验:大语言模型智能体记忆机制演进综述
本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。