超越静态评估：面向对抗博弈的LLM驱动策略演化中的共演化机制

arXiv cs.AI 2026/06/10 04:00 论文

co-evolution llm adversarial-games strategy-evolution code-evolution multi-agent capture-the-flag

摘要

本文提出了三种面向LLM驱动的对抗多智能体博弈代码演化的共演化机制（评估器共演化、分层深度评估和弱点压力），在MCTF 2026海上夺旗任务中取得了最先进的结果。

arXiv:2606.10389v1 公告类型：新提交摘要：近期基于LLM的代码演化进展通过迭代生成和改进程序实现了自动发现。然而，将这些方法应用于对抗性多智能体博弈时面临一个根本性挑战：随着策略改进，评估环境发生动态变化，导致固定评估器变得不可靠，进化陷入停滞。我们提出三种机制应对这一挑战：评估器共演化——将发现的最优策略纳入对手池；分层深度评估——用统计可靠的评估替代噪声较大的少量对局评分；弱点压力——动态提升最困难对手的权重以突破瓶颈。我们在FAMOU框架中实现了这些机制，该框架基于与OpenEvolve和ShinkaEvolve相同的基模型代码演化范式。在MCTF 2026 3v3海上夺旗任务中，FAMOU在两种骨干LLM下均稳定超越基线，取得最高综合得分（0.526）以及对未见对手的最佳泛化能力（胜率61.7%），消融实验证实每个机制均贡献性能提升。值得注意的是，LLM变异过程生成了初始策略中完全不存在的战术结构——包括前瞻搜索和自适应拦截——表明代码级演化可在对抗环境中产生非平凡的算法创新。FAMOU演化策略进一步在AAMAS 2026 MCTF竞赛中获得硬件循环赛第一名和仿真赛第三名，验证了其现实世界可迁移性。通过进化过程优化的实现及相应评估代码可于https://github.com/1xiangliu1/FAMOU-CoEvo获取。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:14

# 对抗性游戏中LLM驱动策略演化的协同进化机制  
来源：https://arxiv.org/html/2606.10389  
Haoran Li¹，Zengle Ge²，Ziyang Zhang²，Xiaomin Yuan²，Yui Lo³，Qianhui Liu⁴，Bocheng An⁵，Dongke Rong²，Jiaqun Liu⁶，Annan Li²，Jianmin Wu²，Dawei Yin²，Dou Shen²，†  

###### 摘要  

近期LLM驱动的代码进化进展使得通过迭代生成和改进程序实现自动化发现成为可能。然而，将这些方法应用于对抗性多智能体游戏时，引入了一个根本性挑战：随着策略的改进，评估环境也在动态变化，导致固定评估器变得不可靠，进化陷入停滞。我们提出三种机制来解决这一挑战：**评估器协同进化**，将发现的最优策略纳入对手池；**分层深度评估**，用统计可靠评估替代噪声大的少量比赛得分；以及**弱点压力**，动态加权重最难的对手以突破平台期。我们在FAMOU框架中实现这些机制，该框架建立在与OpenEvolve和ShinkaEvolve相同的基础模型代码进化范式之上。在MCTF 2026 3v3海上夺旗任务中，FAMOU在两种骨干LLM下均持续优于两种基线方法，取得了最高综合得分(0.526)和对未见对手的最佳泛化能力(61.7%胜率)，而消融实验证实每种机制对性能均有贡献。值得注意的是，LLM变异过程生成了种子策略中完全不存在的新战术结构——包括前瞻搜索和自适应拦截——证明代码级进化能在对抗性设置中产生非平凡的算法创新。FAMOU进化策略进一步在AAMAS 2026 MCTF竞赛硬件循环赛中获第一名，仿真赛中获第三名，验证了其现实世界迁移能力。通过进化过程开发的优化实现及相应评估代码可在以下地址获取：https://github.com/1xiangliu1/FAMOU-CoEvo  

## 引言  

### 背景与动机  

对抗性多智能体游戏仍是AI研究的核心（Busoniu等2008 (https://arxiv.org/html/2606.10389#bib.bib1)；Hernandez-Leal等2017 (https://arxiv.org/html/2606.10389#bib.bib2)），其融合了非平稳对手、指数增长的联合动作空间以及非传递支配关系（Czarnecki等2020 (https://arxiv.org/html/2606.10389#bib.bib3)）。这些挑战在团队对抗游戏中尤为突出，智能体必须在对抗对手的同时在团队内部协调。我们通过MCTF 2026（海上夺旗）来研究这些挑战，这是一个在160m×80m场地上的3v3海上夺旗竞赛，团队按总夺旗次数排序。在早期的竞赛尝试中，我们训练的强化学习策略未能超越手工编写的启发式策略。这促使我们采用不同的方法：不是从零学习策略，而是使用LLM驱动的代码级进化来自动改进启发式代码本身，保留其结构优势，同时将性能推向手工设计无法企及的水平。  

### 代码级进化方法  

受FunSearch（Romera-Paredes等2024 (https://arxiv.org/html/2606.10389#bib.bib4)）、ELM（Lehman等2022 (https://arxiv.org/html/2606.10389#bib.bib5)）和Famou-Agent（Li等2025 (https://arxiv.org/html/2606.10389#bib.bib6)）启发，我们直接在完整的策略代码（500–1700行）上搜索，通过使用LLM生成的语义变异和评估器驱动的选择，结合协同进化动态。与端到端强化学习不同，这种方法保留了启发式代码的可解释结构，同时允许LLM引入种子码中不存在的新战术逻辑——例如前瞻搜索或动态角色拍卖。  

### 贡献  

本文做出以下贡献：  

1. 1.对抗性游戏中LLM代码级进化的系统框架比较。我们在两个骨干LLM下，使用标准化MCTF评估将FAMOU与OpenEvolve (Sharma 2025 (https://arxiv.org/html/2606.10389#bib.bib8))和ShinkaEvolve (Lange等2025 (https://arxiv.org/html/2606.10389#bib.bib9))进行比较。FAMOU持续优于两种基线方法。  
2. 2.引入具有深度评估和弱点压力的评估器协同进化。我们引入三种机制——评估器协同进化（将发现的最优策略纳入对手池）、分层深度评估（用统计可靠评估替代噪声大的少量比赛得分）和弱点压力（动态加权重最难的对手）——并通过探索性消融实验评估它们的贡献。  
3. 3.LLM生成战术结构的实证证据。我们记录了种子码中不存在的LLM生成战术结构，包括H-DWA（前瞻搜索）、A-Lock（角色锁定）和K-Filter（基于EWMA的拦截），提供了LLM能在对抗性游戏中生成非平凡算法结构的证据。  

## 相关工作  

### 多智能体对抗性游戏  

多智能体对抗性游戏的研究涵盖了启发式和基于学习的范式（Busoniu等2008 (https://arxiv.org/html/2606.10389#bib.bib1)；Hernandez-Leal等2017 (https://arxiv.org/html/2606.10389#bib.bib2)）。启发式策略（例如分层状态机（Kalyanakrishnan等2007 (https://arxiv.org/html/2606.10389#bib.bib10)）、人工势场（Khatib 1986 (https://arxiv.org/html/2606.10389#bib.bib11)））在确定性和可解释性方面具有天然优势。深度强化学习系统如AlphaStar（Vinyals等2019 (https://arxiv.org/html/2606.10389#bib.bib12)）、OpenAI Five（Berner等2019 (https://arxiv.org/html/2606.10389#bib.bib13)）和DeepMind CTF（Jaderberg等2019 (https://arxiv.org/html/2606.10389#bib.bib14)），以及多智能体算法如QMIX（Rashid等2018 (https://arxiv.org/html/2606.10389#bib.bib15)）和MAPPO（Yu等2022 (https://arxiv.org/html/2606.10389#bib.bib16)），以及范式如虚构自博弈（Heinrich等2015 (https://arxiv.org/html/2606.10389#bib.bib17)）、PSRO（Lanctot等2017 (https://arxiv.org/html/2606.10389#bib.bib18)）和基于种群的训练（Jaderberg等2017 (https://arxiv.org/html/2606.10389#bib.bib19)），在复杂游戏中实现了超人性能。然而，对抗性游戏固有的非传递性（Czarnecki等2020 (https://arxiv.org/html/2606.10389#bib.bib3)；Balduzzi等2019 (https://arxiv.org/html/2606.10389#bib.bib20)）使得寻找全局鲁棒策略变得困难。  

### LLM驱动的代码生成与程序合成  

从Codex（Chen等2021 (https://arxiv.org/html/2606.10389#bib.bib21)）到DeepSeek-Coder（Guo等2024 (https://arxiv.org/html/2606.10389#bib.bib22)），LLM的代码生成能力迅速进步（Li等2022 (https://arxiv.org/html/2606.10389#bib.bib23), 2023 (https://arxiv.org/html/2606.10389#bib.bib24)；Roziere等2023 (https://arxiv.org/html/2606.10389#bib.bib25)）。编程智能体如SWE-agent（Yang等2024 (https://arxiv.org/html/2606.10389#bib.bib26)）和Voyager（Wang等2023 (https://arxiv.org/html/2606.10389#bib.bib27)）证明LLM能执行多步软件工程和开放世界探索任务。在LLM与进化搜索的交汇处，FunSearch（Romera-Paredes等2024 (https://arxiv.org/html/2606.10389#bib.bib4)）首次将LLM与进化搜索结合，在数学发现中超越人类最佳解。ELM（Lehman等2022 (https://arxiv.org/html/2606.10389#bib.bib5)）提出LLM作为智能变异算子，ReEvo（Ye等2024 (https://arxiv.org/html/2606.10389#bib.bib28)）引入反思机制以增强启发式进化，Eureka（Ma等2023 (https://arxiv.org/html/2606.10389#bib.bib29)）使用LLM自动设计RL奖励函数。Famou-Agent（Li等2025 (https://arxiv.org/html/2606.10389#bib.bib6)）将基于LLM的进化与科学计算中的评估反馈循环相结合，作为本文框架的直接基础。在LLM进化与多智能体游戏的交汇处，PolicyEvolve（Lv等2025 (https://arxiv.org/html/2606.10389#bib.bib7)）首次提出多玩家游戏中程序化策略进化框架，通过全局/局部策略池和基于种群的训练实现策略持续改进。COvolve（Sygkounas等2026 (https://arxiv.org/html/2606.10389#bib.bib30)）将LLM生成的策略和环境建模为零和博弈，通过对抗性协同进化提高策略鲁棒性。  

### 进化搜索与质量多样性  

经典遗传规划（GP）（Koza 1992 (https://arxiv.org/html/2606.10389#bib.bib31)）在程序合成任务中历史悠久。NEAT（Stanley和Miikkulainen 2002 (https://arxiv.org/html/2606.10389#bib.bib32)）通过拓扑增强进化神经网络结构，正则化进化（Real等2019 (https://arxiv.org/html/2606.10389#bib.bib33)）将锦标赛选择与年龄正则化结合用于架构搜索。岛屿模型（Whitley等1999 (https://arxiv.org/html/2606.10389#bib.bib34)）通过维护多个独立子种群并定期迁移精英，有效平衡探索与利用。MAP-Elites（Mouret和Clune 2015 (https://arxiv.org/html/2606.10389#bib.bib35)）和NSGA-II（Deb等2002 (https://arxiv.org/html/2606.10389#bib.bib36)）进一步扩展了质量多样性搜索的维度。  

### 协同进化与对抗性评估  

协同进化的核心思想是测试用例与被评估主体共同进化，形成不断升级的“军备竞赛”（Hillis 1990 (https://arxiv.org/html/2606.10389#bib.bib37)）。Rosin和Belew（Rosin和Belew 1997 (https://arxiv.org/html/2606.10389#bib.bib38)）系统研究了竞争性协同进化中的评估困难——包括“红皇后效应”和循环支配——并提出了缓解方法如竞争性适应度共享。评分系统如Elo（Elo 1978 (https://arxiv.org/html/2606.10389#bib.bib39)）和TrueSkill（Herbrich等2006 (https://arxiv.org/html/2606.10389#bib.bib40)）试图从有限的比赛数据中推断策略真实强度，但对抗性游戏的非传递性（Czarnecki等2020 (https://arxiv.org/html/2606.10389#bib.bib3)）使得基于有限对手池的评估本质上是不可靠的。本文提出的评估器协同进化可以看作竞争性协同进化在LLM代码进化领域的一种实例化。  

**定位。** 我们的工作与先前的基于LLM的进化在三个方面不同：(1) 进化目标是完整的500–1700行策略系统而非紧凑函数；(2) 我们引入评估器协同进化、深度评估和弱点压力以对抗对手池陈旧；(3) 我们在两个骨干LLM下提供带有统计显著性检验的受控实验。  

## 问题定义与挑战  

### MCTF 2026竞赛规则  

MCTF 2026是一个3v3海上夺旗竞赛。规则总结于表1 (https://arxiv.org/html/2606.10389#Sx3.T1)。  
表1：MCTF 2026竞赛规则摘要。参与者提交蓝队Python策略代码，平台将其与所有对手进行评估。策略按总夺旗次数排序，这意味着5-0的胜利远比1-0的险胜更有价值。  

### 策略设计的核心挑战  

MCTF策略设计面临五个核心挑战：(1)**高维动作空间**：24³=13,824个联合动作组合；(2)**角色分配**：三个智能体必须动态分配为攻击者、防御者和支援者等角色；(3)**攻防平衡**：按总夺旗次数排序要求最大化得分效率同时最小化失分；(4)**对手适应性**：对手策略未知且多样，需要良好的泛化能力；(5)**非传递性**：不存在全局最优策略。  

## 方法  

### 整体框架  

我们使用FAMOU（自动变异与效用优化框架）（Li等2025 (https://arxiv.org/html/2606.10389#bib.bib6)）通过LLM生成的语义变异来优化可执行的MCTF策略代码。相对于Famou-Agent（Li等2025 (https://arxiv.org/html/2606.10389#bib.bib6)），我们将该框架适配到对抗性多智能体策略代码，并增加了评估器协同进化、弱点压力以及MCTF实验。通用的LLM变异循环继承自Famou-Agent：系统维护一个可执行策略程序的档案库，选择高分策略作为父本，提示LLM生成完整的修改后Python文件而非补丁，验证生成文件的语法和API兼容性，在游戏模拟器中评估有效候选，并将生成的性能摘要反馈到下一次变异提示中。图1 (https://arxiv.org/html/2606.10389#Sx4.F1)展示了架构，算法1 (https://arxiv.org/html/2606.10389#alg1)给出了核心过程。本节剩余部分详细介绍关键组件：进化目标与变异算子（§4.2）、父本选择（§4.3）、以及将FAMOU与普通LLM进化区分开的三种机制——评估器协同进化（§4.4）、弱点压力（§4.5）和分层深度评估（§4.6）。  

参见标题  
图1：FAMOU自进化编码智能体框架。种子策略经过LLM基于语义的变异和进化；评估器筛选候选；分层深度评估选择最优策略；通过协同进化将最优策略自动添加到下一个评估器的对手池；弱点压力动态调整对手权重以克服平台期。  

算法1 MCTF策略进化的主循环  
**要求：** 种子策略S₀，评估器E，迭代次数T  
**确保：** 最佳策略S*  
1： 初始化包含S₀变体的种群P₀  
2： **for** t = 1 **to** T **do**  
3：     **for each** 候选c ∈ P_t **do**  
4：         运行c与E中的每个对手（每对手3局）；计算加权适应度F(c)=∑_{i=1}^n w_i·metric(c, o_i)  
5：     **end for**  
6：     基于F(c)选择精英个体；LLM对精英代码进行语义变异 → 新候选  
7：     **if** 检测到最优策略（新最佳） **then**  
8：         将最优策略添加到评估器对手池（协同进化）；应用**弱点压力**：识别并加权重最弱的对手  
9：         触发**深度评估**（每对手20局）以确认  
10：    **end if**  
11：**end for**  
12：**return** 来自深度评估的最佳策略S*  

### 进化目标与LLM变异算子  

每个个体是一个500–1700行的Python策略文件，包含`Agent_0.compute_action(obs, info)`方法。变异由LLM执行，具体为Gemini-2.5-Flash或DeepSeek-V4-Flash，温度0.8，最大令牌预算64,000。每次变异时，LLM接收当前策略、任务/API约束以及针对每个对手的评估反馈，然后返回一个完整的、保持所需接口的可执行策略文件。LLM变异利用代码语义进行定向结构变化，而非随机扰动。进化开始

超越静态评估：面向对抗博弈的LLM驱动策略演化中的共演化机制

相似文章

谁为评分者评分？自我改进大语言模型代理中评估指标与技能的协同进化

CoEvolve：通过智能体-数据互进化训练LLM智能体

教导LLMs自我进化：通过强化学习培养核心元技能

AlgoEvolve: LLM驱动的算法交易程序元进化

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自我进化综述

提交意见反馈