FORGE：通过群体广播实现无需权重更新的自演化智能体记忆

arXiv cs.AI 2026/05/18 04:00 论文

llm-agent memory self-evolution population-broadcast react-agent cyborg-cage2 reflexion

摘要

FORGE是一种协议，使LLM智能体能够通过群体广播无需权重更新地演化其记忆，将失败轨迹转化为可复用的知识构件。在CybORG CAGE-2网络防御任务中，相较于零样本和Reflexion基线，该协议在多个LLM家族上显著提升了性能。

arXiv:2605.16233v1 公告类型:新摘要：LLM智能体能否通过自生成记忆（无需梯度更新）来改进决策？我们提出FORGE（失败优化反思式渐进与演化），这是一种分阶段、基于群体的协议，用于演化为分层ReAct智能体注入提示的自然语言记忆。FORGE包裹了一个Reflexion风格的内循环，其中专门的反思智能体（使用相同的底层LLM，无来自更强模型的蒸馏）将失败的轨迹转化为可复用的知识构件：文本启发式（规则）、少样本演示（示例）或两者混合（混合），外循环则在阶段间将表现最佳实例的记忆传播给群体，并通过毕业标准冻结收敛的实例。我们在CybORG CAGE-2（一个随机网络防御POMDP，30步时间范围，对抗B-line攻击者）上进行了评估，所有四个测试的LLM家族（Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick、Qwen3-235B）均表现出强烈负值、重尾分布的零样本奖励。与零样本基线和Reflexion基线（孤立的单流学习）相比，在所有12个模型-表示条件下，FORGE将平均评估回报提高了零样本的1.7-7.7倍，比Reflexion提高了29-72%，将重大失败率（低于-100）降至约1%。我们发现：（1）群体广播是关键机制，无毕业消融实验证实广播带来了性能提升，而毕业主要节省计算资源；（2）对于三个模型，“示例”实现了最强的回报，“规则”提供了最佳的成本-可靠性曲线，节省约40%的令牌；（3）较弱的基线模型获益更大，表明FORGE可能弥合能力差距，而非放大强模型。所有证据仅限于CAGE-2 B-line；跨家族发现为方向性证据。

查看原文

FORGE：通过群体广播实现无需权重更新的自演化智能体记忆

相似文章

EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构

FlashEvolve：通过异步阶段编排加速智能体自我进化

通过参数化记忆扩展自进化智能体

HAGE: 通过强化学习驱动加权图演化利用智能体记忆

从存储到经验：大语言模型智能体记忆机制演进综述

提交意见反馈