AlgoEvolve: LLM驱动的算法交易程序元进化

arXiv cs.AI 论文

摘要

介绍了AlgoEvolve,一个LLM驱动的进化框架,用于生成并迭代改进算法交易策略。该框架包含一个元进化外层循环,用于进化提示词以指导内层循环的合成。

arXiv:2606.26173v1 公告类型:新 摘要:近期研究表明,大型语言模型(LLMs)可以作为语义变异运算符,用于程序和证明的进化发现。目前大多数应用集中于静态编码基准测试。我们将这一范式扩展至算法交易领域。该领域具有独特的挑战性,因其噪声大、非平稳且高度不连续。我们提出了AlgoEvolve,一个LLM驱动的进化框架,用于生成、评估并迭代改进可执行的交易策略。这些策略以Python代码表达,并通过严格的测试协议进行评估。在多个实验中,系统展现出涌现性的制度自适应策略逻辑,包括交易规则的自主转换。我们进一步引入了一个元进化外层循环,用于进化指导内层循环程序合成的提示词。该外层循环发现了改进的搜索启发式方法。这些启发式方法在平衡探索与利用的同时减少了零交易失败。它们始终优于最初由人类设计的指令。结果表明,基于LLM的语义进化为复杂环境下的持续程序合成提供了一种可行方法。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:11

# AlgoEvolve: LLM驱动的算法交易程序元进化

**来源:** https://arxiv.org/html/2606.26173

Dr. Gautam Shroff¹²  
¹Indraprastha Institute of Information Technology, Delhi  
²Indraprastha Institute of Information Technology, Delhi  
{dhruv22170, gautam.shroff}@iiitd.ac.in

###### 摘要

近期研究表明,大型语言模型(LLMs)能够作为语义变异算子,用于程序和证明的进化发现。大多数当前应用集中在静态编码基准测试上。我们将这一范式扩展到算法交易领域。该领域具有独特挑战性,因为它噪声大、非平稳且高度不连续。我们提出了 AlgoEvolve,一个由 LLM 驱动的进化框架,能够生成、评估并迭代改进可执行的交易策略。这些策略以 Python 代码表示,并通过严格的测试协议进行评估。在多项实验中,该系统展现出新兴的制度自适应策略逻辑,包括交易规则的自主转移。我们进一步引入了一个元进化外循环,该循环进化用于指导内循环程序合成的提示。这个外循环发现了改进的搜索启发式方法。这些启发式方法平衡了探索与利用,同时减少了零交易失败。它们始终优于初始的人工设计指令。结果表明,基于 LLM 的语义进化为复杂环境中的持续程序合成提供了一种可行方法。

## 1 简介

旨在发现金融市场算法交易最优策略的程序(例如,使用机器学习)需要合成和选择异构市场信号,并适应非平稳制度(Hambly et al., 2023(https://arxiv.org/html/2606.26173#bib.bib10);Yu et al., 2025(https://arxiv.org/html/2606.26173#bib.bib30);Li et al., 2023(https://arxiv.org/html/2606.26173#bib.bib11))。交易策略的性能(即盈亏)通常是其可能使用的任何参数(例如,阈值、模型权重等)的非可微且高度不连续的函数(Zhang et al., 2020(https://arxiv.org/html/2606.26173#bib.bib12)),这是由于该领域的噪声特性,即非常低的信噪比(Lim and Zohren, 2021(https://arxiv.org/html/2606.26173#bib.bib13))。传统的深度学习和强化学习(RL)方法也受限于它们对“黑盒”参数优化的依赖,缺乏监管框架通常要求的透明度(Arsenault et al., 2025(https://arxiv.org/html/2606.26173#bib.bib15))。这些方法还容易过拟合历史噪声(De Prado, 2018(https://arxiv.org/html/2606.26173#bib.bib14)),导致在突然的制度转变中性能严重下降。最近,大型语言模型(LLMs)展示了其在金融决策中的潜力,并解决了参数模型的局限性:除了作为多模态特征提取器(Chen et al., 2021(https://arxiv.org/html/2606.26173#bib.bib18);Yang et al., 2023b(https://arxiv.org/html/2606.26173#bib.bib19)),LLMs 在通过上下文学习捕获长程时间依赖性和跨不同市场制度泛化方面展现出新兴能力(Jin et al., 2023(https://arxiv.org/html/2606.26173#bib.bib20);Yu et al., 2023(https://arxiv.org/html/2606.26173#bib.bib21))。然而,虽然这些模型越来越多地被用作“智能体”控制器,但它们主要被作为一次性生成器或静态预测器进行评估。我们提议将 LLM 用作能够进行迭代程序细化的语义变异算子。通过借鉴符号发现(如 FunSearch(Romera-Paredes et al., 2024(https://arxiv.org/html/2606.26173#bib.bib22))和 AlphaEvolve(Novikov et al., 2025(https://arxiv.org/html/2606.26173#bib.bib23)))以及通过迭代编辑扩展测试时计算(Ehrlich et al., 2025(https://arxiv.org/html/2606.26173#bib.bib27))的最新突破,我们证明 LLM 可以参与迭代进化发现过程,生成并持续改进可执行的算法交易策略。

![参考标题](图 1:AlgoEvolve 框架。我们的分层架构共同进化符号交易策略及其发现启发式方法。(A) 内循环利用 LLM 作为语义变异算子,迭代优化可执行的 Python 策略,并通过严格的向前验证协议进行评估。(B) 外循环对提示基因组进行元进化,发现能够适应市场非平稳性并稳定发现过程(避免诸如“零交易”停滞等常见失败模式)的优越搜索指令。)

我们引入了 **AlgoEvolve**,一个分层框架,其中 LLM 作为语义变异算子来发现可执行的交易策略。基于 AlphaEvolve(Novikov et al., 2025(https://arxiv.org/html/2606.26173#bib.bib23))建立的“编码智能体”范式(该范式编排 LLM 流程以进行科学发现),我们提出了一个专门的双层元进化架构:内循环使用配备了搜索提示、策略代码和近期性能数据的 LLM 来进化策略。此外,外循环进化搜索提示本身。与现有依赖静态指令或非结构化反馈的方法不同(Fernando et al., 2023(https://arxiv.org/html/2606.26173#bib.bib42);Yang et al., 2023a(https://arxiv.org/html/2606.26173#bib.bib17)),AlgoEvolve 将提示视为结构化的**提示基因组**,使系统能够自主发现并优化其自身的发现启发式方法,以应对不断变化的市场制度。随着 AlgoEvolve 随时间持续迭代运行,它展现出了策略逻辑的质变,这表明了其与简单历史拟合的背离。我们观察到交易范式的自主转变,系统独立超越了人类提供的趋势跟踪先验,发现了复杂的制度自适应规则,例如多因子评分和价格行为启发式方法。这些发现的策略经常利用类似于人类工程化结构的多柱线模式,但针对目标资产的特定波动性特征进行了优化。在外层,元进化层发现了**进化的提示**,这些提示稳定了推理过程,并有效减轻了基于静态 LLM 的搜索中观察到的“零交易”失败模式。我们的贡献如下:

1.  我们引入了一个端到端的 LLM 驱动的进化框架,用于发现和改进算法交易策略,实现了年化夏普比率 5.60。
2.  我们证明 AlgoEvolve 独立放弃了人类设计的趋势跟踪先验,以发现更优的、制度自适应的逻辑。
3.  我们提出了一个元进化的外循环,该循环进化内循环的进化器提示本身,从而实现对搜索启发式方法的自主优化。
4.  我们认为基于 LLM 的语义进化是在算法交易等噪声、非可微和高维环境中进行程序合成的一种可行方法。

## 2 相关工作

**LLM 驱动的程序合成**。程序合成已从一次性自回归生成(Nijkamp et al., 2023(https://arxiv.org/html/2606.26173#bib.bib24))扩展到迭代发现,其中 LLM 在进化架构中充当语义信息驱动的变异算子(Romera-Paredes et al., 2024(https://arxiv.org/html/2606.26173#bib.bib22))。为了管理庞大的程序搜索空间,当前的研究将 LLM 推理与形式约束相结合,包括枚举合成的语法指导(Li et al., 2024(https://arxiv.org/html/2606.26173#bib.bib25))以及混合人-LLM 工作流中基于语法的结构约束(Barke et al., 2022(https://arxiv.org/html/2606.26173#bib.bib26))。这些框架的性能越来越受测试时计算的驱动,利用迭代编辑(Ehrlich et al., 2025(https://arxiv.org/html/2606.26173#bib.bib27))、基于种群的程序提议探索(Real et al., 2020(https://arxiv.org/html/2606.26173#bib.bib39))以及执行反馈循环(Yang et al., 2023a(https://arxiv.org/html/2606.26173#bib.bib17))来解决复杂逻辑。与经典遗传编程不同,LLM 驱动的进化更能捕捉高维优化所需的语义意图(Fernando et al., 2023(https://arxiv.org/html/2606.26173#bib.bib42)),为在噪声、不连续的环境(如算法交易)中进行合成提供了基础。

**LLM 在金融决策中的应用**。大型语言模型(LLMs)已越来越多地应用于金融任务,从情感分析和领域特定建模(Araci, 2019(https://arxiv.org/html/2606.26173#bib.bib28);Wu et al., 2023(https://arxiv.org/html/2606.26173#bib.bib29))到执行推理时决策的智能体交易系统(Yu et al., 2025(https://arxiv.org/html/2606.26173#bib.bib30);Zhang et al., 2024(https://arxiv.org/html/2606.26173#bib.bib31);Wu et al., 2025(https://arxiv.org/html/2606.26173#bib.bib45);Song et al., 2025(https://arxiv.org/html/2606.26173#bib.bib46))。最近的框架进一步集成了强化学习(Xiong et al., 2025(https://arxiv.org/html/2606.26173#bib.bib44))或内部竞争机制(Zhao et al., 2025(https://arxiv.org/html/2606.26173#bib.bib47))以提高在噪声市场中的鲁棒性,但在部署期间依赖连续的模型推理。相反,*AlgoEvolve* 仅在设计时使用 LLM 来合成明确的、可执行的交易策略。通过进化符号化的 Python 程序而不是在运行时查询 LLM,该框架实现了零推理时延迟、固有的可解释性以及对非平稳市场制度的增强鲁棒性。这种表述将 LLM 重新定义为符号化的策略设计师,而非实时交易智能体,更好地使基于语言的推理与算法交易的操作约束保持一致。

**金融策略发现的进化计算**。交易的进化方法范围从遗传编程用于符号规则(Koza, 1992(https://arxiv.org/html/2606.26173#bib.bib32);Potvin et al., 2004(https://arxiv.org/html/2606.26173#bib.bib33);Brabazon and O’Neill, 2006(https://arxiv.org/html/2606.26173#bib.bib34))到投资组合优化(Chang et al., 2000(https://arxiv.org/html/2606.26173#bib.bib35);Brabazon et al., 2008(https://arxiv.org/html/2606.26173#bib.bib36))和神经进化策略(Stanley and Miikkulainen, 2002(https://arxiv.org/html/2606.26173#bib.bib37);Manahov et al., 2019(https://arxiv.org/html/2606.26173#bib.bib38))。虽然可解释,但这些方法依赖于随机算子,可能在噪声金融环境中产生不稳定或脆弱的策略。最近的协同进化框架共同优化规则和风险,但仍局限于没有语义指导的句法搜索。AlgoEvolve 通过用推理驱动的 LLM 变换替代随机变异来解决这一差距,产生由执行反馈通知的逻辑一致的修改,从而提高了在非平稳市场中的稳定性。

**元进化与自动搜索**。除了进化解决方案,研究还探索通过自改进框架(Real et al., 2020(https://arxiv.org/html/2606.26173#bib.bib39))、优化器的元学习(Andrychowicz et al., 2016(https://arxiv.org/html/2606.26173#bib.bib40))以及协同进化的基于种群的训练(Jaderberg et al., 2017(https://arxiv.org/html/2606.26173#bib.bib41))来优化搜索过程本身。最近,诸如 PromptBreeder(Fernando et al., 2023(https://arxiv.org/html/2606.26173#bib.bib42))和 OPRO(Yang et al., 2023a(https://arxiv.org/html/2606.26173#bib.bib17))等 LLM 驱动系统展示了在静态文本领域通过自指循环进行提示优化。AlgoEvolve 通过一个分层架构将这一范式扩展到可执行程序发现,其中外循环进化提示基因组。这使得能够自主发现稳定探索并适应非平稳市场制度的搜索启发式方法,从而减轻诸如策略退化或零活动崩溃等实际失败模式。

## 3 问题形式化

我们将交易策略的自动发现形式化为一个**双层、非平稳的程序合成**问题。目标是进化一个能适应变化数据分布的智能体(策略),同时进化一个能提高适应效率的搜索算法(提示)。

### 3.1 策略表示(内层智能体)

交易策略表示为一个可执行的 Python 程序 \(f \in \mathcal{F}\),其中 \(\mathcal{F}\) 表示在系统执行约束下所有语法有效的 Python 程序的空间。形式上,令 \(\mathbf{x}_t \in \mathbb{R}^d\) 为时间 \(t\) 的特征向量(从 5 分钟 OHLCV 柱线中导出)。策略计算:
\[f(\mathbf{x}_t) \to \hat{y}_t \in \mathcal{Y}, \quad \mathcal{Y} = \{0,1,2,3,4\} \times \{0,1,2,3,4\}\]
其中 \(\hat{y}_t\) 是一个元组,每个分量分别编码短期和长期视野上的离散交易信号。与参数模型(例如,神经网络)不同,参数模型在权重空间 \(\Theta\) 中进行优化,而此处优化发生在离散、非可微的程序空间 \(\mathcal{F}\) 中(Koza, 1992(https://arxiv.org/html/2606.26173#bib.bib32))。

### 3.2 非平稳目标(向前验证)

金融市场是非平稳的,这意味着最优函数 \(f^\star\) 随时间变化。我们使用**向前验证**协议对此进行建模(De Prado, 2018(https://arxiv.org/html/2606.26173#bib.bib14))。将系统的生命周期划分为 \(K\) 个时间时期。在每个时期 \(k\),系统可以访问一个历史窗口 \(\mathcal{D}_{train}^{(k)}\)。它必须产生一个策略 \(f_k\) 以部署在不可见的未来窗口 \(\mathcal{D}_{test}^{(k)}\) 上。性能度量 \(S(f, \mathcal{D})\) 定义为一个复合适应度分数:
\[S(f, \mathcal{D}) = \alpha \cdot \mathcal{R}(f, \mathcal{D}) + (1-\alpha) \cdot \mathcal{C}(f, \mathcal{D})\]
其中 \(\mathcal{R}\) 表示策略产生的**总回报**(累积盈亏),\(\mathcal{C}\) 表示**一致性**,这是一个鲁棒性度量,衡量策略表现优于市场中位数的资产比例。这里 \(\alpha\) 是一个加权系数,用于优先考虑跨资产鲁棒性而非单一资产的表现优异,以减轻非平稳分布转移的风险。这也有助于避免在初步帕累托试验中观察到的琐碎零暴露最优解,其中不活动完美地满足风险约束。

内循环在时期 \(k\) 的优化问题是找到:
\[f_k^\star = \arg\max_{f \in \mathcal{F}} S(f, \mathcal{D}_{train}^{(k)})\]
然而,最终目标是最**大化**对不可见未来的**泛化能力**:
\[\sum_{k=1}^K S(f_k^\star, \mathcal{D}_{test}^{(k)})\]

### 3.3 元进化(外循环)

内循环的成功取决于由**进化器提示** \(P\) 控制的搜索启发式方法。令 \(\mathcal{A}(P, \mathcal{D}_{train})\)

相似文章

MLEvolve:自动化机器学习算法发现的自我进化框架

Hugging Face Daily Papers

MLEvolve是一个基于LLM的自我进化多智能体框架,用于自动化机器学习算法发现。它将树搜索扩展为Progressive MCGS,并引入基于图的跨分支信息流和Retrospective Memory。该框架在MLE-Bench上取得了最先进的性能,并在数学算法优化任务上优于AlphaEvolve。

CoEvolve:通过智能体-数据互进化训练LLM智能体

arXiv cs.CL

CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。