PandaAI：面向量化金融的神经符号数据分析与集成决策的实用CQ2智能体

arXiv cs.LG 2026/06/08 04:00 论文

neuro-symbolic large-language-models quantitative-finance agent decision-making finance

摘要

PandaAI提出了一种用于量化金融序列决策的闭环神经符号LLM智能体，通过集成市场状态建模和约束Alpha生成来应对金融数据的低信噪比和非平稳性，在性能上较最先进的时间序列模型有显著提升。

arXiv:2606.06823v1 公告类型：新摘要：尽管深度学习在多个领域表现出色，但由于金融数据存在低信噪比（SNR）和非平稳性，其在金融序列决策中的应用仍面临挑战。利用大型语言模型（LLMs）的推理能力，我们提出了\textbf{PandaAI}，一个带有市场状态建模和约束Alpha生成的闭环神经符号LLM智能体，该智能体将通用LLM推理与金融严谨性相结合，并抑制了LLM生成输出的金融毒性。为了弥合通用语言能力与金融严谨性之间的差距，我们微调了一个领域特定的LLM。此外，我们将该LLM集成到一个模块化架构中，形成了一个闭环系统。与优化孤立预测指标的传统模型不同，\textbf{PandaAI}被设计为一个具有明确风险意识的神经符号智能体，能够在复杂的真实金融环境中导航。在沪深300股票数据上进行的大量实验表明，\textbf{PandaAI}的Rank IC比最先进的时间序列模型高出18.2\%，最大回撤低25.7\%。我们的约束LLM生成和双通道自适应方法为在高风险序列决策场景中部署LLM提供了一种通用范式。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:18

# PandaAI: 用于量化金融中神经符号数据分析与集成决策的实用Agent CQ2

来源：https://arxiv.org/html/2606.06823

Siyuan Liu Panda AI liusiyuan@pandaai\.online
Bingjun Liu Panda AI liubingjun@pandaai\.online

###### 摘要

尽管深度学习在多个领域表现出色，但由于金融数据中信噪比低且非平稳，其在金融序列决策中的应用仍具挑战性。利用大型语言模型的推理能力，我们提出 **PandaAI**，一种具有市场制度建模和受限Alpha生成的闭环神经符号LLM Agent，它在通用LLM推理与金融严谨性之间架起桥梁，并抑制LLM生成输出的金融毒性。为了弥合通用语言能力与金融严谨性之间的差距，我们微调了一个领域特定的LLM。此外，我们将该LLM集成到模块化架构中，形成闭环系统。与传统优化孤立预测指标的模型不同，PandaAI 被设计为一种神经符号Agent，能够在复杂的真实金融环境中以显式的风险意识进行导航。在沪深300股票数据上的广泛实验表明，PandaAI 相较于最先进的时间序列模型，Rank IC 提高了18.2%，最大回撤降低了25.7%。我们的受限LLM生成和双通道自适应方法为在高风险序列决策场景中部署LLM提供了一种通用范式。

## 1 引言

近年来，深度学习在诸多实际应用中取得了巨大成功，例如人脸识别 (Sun et al., 2024, https://arxiv.org/html/2606.06823#bib.bib50)、目标分割 (Kirillov et al., 2023, https://arxiv.org/html/2606.06823#bib.bib49) 以及自然语言处理 (Devlin et al., 2019, https://arxiv.org/html/2606.06823#bib.bib51; Yenduri et al., 2023, https://arxiv.org/html/2606.06823#bib.bib52)。然而，金融数据由于其固有的低信噪比和非平稳性，给深度学习带来了巨大挑战。信噪比是指可预测的、具有经济意义的模式（信号）与主导价格变动的随机不可预测波动（噪声）之间的相对强度；金融价格序列表现出强烈的非平稳性，形式包括趋势行为（接近单位根过程）、波动性聚类、经济制度变化时的结构性突变以及不断演变的跨资产关系，所有这些都违背了许多标准深度学习架构隐含的平稳性假设。在本文中，我们整合量化投资方法，通过挖掘公式化Alpha因子 \(f\) 来提升信噪比，从而辅助决策，而非直接依赖原始数据。量化投资任务被建模为序列决策过程。目标是优化投资组合权重 \(\mathbf{w}_t\)，以在满足一组风险约束 \(\mathcal{C}\) 的前提下最大化累积收益。公式化Alpha因子 \(f\) 是一个符号表达式，将市场历史映射为一个横截面信号向量 \(\mathbf{s}_t \in \mathbb{R}^N\)，其中 \(N\) 代表资产池中的产品数量。\(f\) 的搜索空间由一个上下文无关文法定义，涉及数学运算符（例如，\(+\), \(-\), \(\log\), \(rank\)）和市场变量。与无约束的代码生成不同，可行的金融因子必须遵循特定的结构性约束（例如，量纲一致性）和风险约束（例如，衰减率）。我们将可行因子集合记为 \(\mathcal{A}_{\text{feasible}} \subset \mathcal{A}_{\text{all}}\)。金融时间序列违背了平稳性假设（即联合分布随时间变化）。我们通过引入一个潜在制度状态 \(z_t\) 来形式化这一点，该状态表示连续的市场制度状态，捕捉市场在时刻 \(t\) 的动态特征（例如，波动性、流动性）。市场动态由一个以 \(z_t\) 为条件的时变转移函数所支配。因此，一个静态策略 \(\pi(a|s)\) 必然会退化。一个市场感知的策略必须隐含 \(\pi(a|s, z_t)\)，并根据推断出的市场制度 \(z_t\) 动态调整参数（例如，风险厌恶系数 \(\lambda\)）。我们在表4 (https://arxiv.org/html/2606.06823#S6.T4) 中总结了本文使用的符号。总之，我们的主要贡献如下：

- **• 结合LLM引导的受限MCTS Alpha挖掘：** 我们设计了一个LLM引导的受限MCTS Alpha挖掘框架，将金融硬约束整合到LLM生成的全生命周期中，以解决无约束方法生成的因子存在的金融毒性问题。
- **• 具有双通道自适应的市场制度潜在建模：** 我们提出了市场制度潜在变量建模和双通道自适应机制，将高维市场动态因子压缩为连续潜在状态 \(z_t\)，从而为LLM的符号推理和量化模块的数值优化实现统一的市场感知。
- **• 面向量化金融全生命周期的闭环更新系统：** 我们构建了一个涵盖量化金融全生命周期的闭环更新系统，结合快速逻辑约束归纳和慢速参数自适应，实现模型对非平稳金融市场的持续适应，突破了传统开环模型的局限性。

## 2 相关工作

![图1](refer to caption)

**图1：PandaAI 市场感知量化框架概览。** 系统作为一个闭环动态系统运行，涵盖六个核心模块。(左) 市场动态模块 \(\mathcal{M}\) 接收数据并生成制度状态 \(z_t\)（支持H1）。(中) Alpha研究模块 \(\mathcal{R}\) 利用LLM引导的MCTS，在约束 \(\mathcal{C}\) 下搜索稳健因子（支持H2）。(右) 投资组合模块 \(\mathcal{P}\) 和执行模块 \(\mathcal{E}\) 根据 \(z_t\) 做出决策。(底) 反馈循环通过验证模块 \(\mathcal{V}\) 收集证据 \(E\)，以更新参数 \(\theta\) 和约束 \(\mathcal{C}\)（支持H3）。实线箭头表示数据流；虚线箭头表示控制/更新流。

### 2.1 Alpha空间探索

类似于机器学习中的特征工程，自动化Alpha挖掘也是量化金融的基石。在机器学习兴起之前，遗传规划 (Koza, 1992, https://arxiv.org/html/2606.06823#bib.bib11) 表现有效，尽管其搜索Alpha空间往往效率低下。随后，许多工作试图尽可能覆盖完整的Alpha空间。DeepScalper (Sun et al., 2022, https://arxiv.org/html/2606.06823#bib.bib13) 引入了深度强化学习，而DSO (Petersen et al., 2019, https://arxiv.org/html/2606.06823#bib.bib14) 和 AlphaGen (Yu et al., 2023, https://arxiv.org/html/2606.06823#bib.bib15) 使用符号回归实现了更好的可解释性。最近，由于大型语言模型在复杂语义理解和代码生成能力上展现出显著提升，AlphaGPT (Wang et al., 2025, https://arxiv.org/html/2606.06823#bib.bib16) 集成了 Llama3 70B (Grattafiori et al., 2024, https://arxiv.org/html/2606.06823#bib.bib48)，通过将人类直觉转化为量化交易策略来挖掘、测试和部署投资信号（Alpha）。Shi et al. (2025, https://arxiv.org/html/2606.06823#bib.bib17) 提出了MCTS引导的探索，以显式覆盖完整的Alpha空间。尽管在搜索能力上取得了显著进展，但鲁棒性仍是首要关注点。生成式方法容易过拟合，由于缺乏持续、严格的验证机制，往往产生数学上有效但具有金融毒性的因子（例如，极端换手率）。

### 2.2 市场动态与自适应

在更广泛的机器学习社区中，像 TimesNet (Wu et al., 2022, https://arxiv.org/html/2606.06823#bib.bib19) 和 iTransformer (Liu et al., 2023, https://arxiv.org/html/2606.06823#bib.bib20) 这样的先进架构为处理时间变化设立了新的最先进标准。然而，金融市场本质上是非平稳的。来自市场动态的分布偏移对静态模型构成了严峻挑战 (Hamilton, 2020, https://arxiv.org/html/2606.06823#bib.bib18)。尽管 RevIN (Kim et al., 2021, https://arxiv.org/html/2606.06823#bib.bib21) 和元学习框架 DoubleAdapt (Zhao et al., 2023, https://arxiv.org/html/2606.06823#bib.bib22) 已成功解决了股票预测中的概念漂移问题，但将这些自适应机制迁移到基于LLM的Agent中仍未被充分探索。当前的LLM Agent通常隐含地假设平稳性，往往忽略对市场动态（例如，制度转换）的显式建模。这种局限性限制了它们在市场动荡期（如流动性危机）根据上下文调整下游策略的能力。

### 2.3 自主Agent与闭环系统

自主Agent的部署代表了AI研究的前沿。通用框架 (Shen et al., 2023, https://arxiv.org/html/2606.06823#bib.bib24; Park et al., 2023, https://arxiv.org/html/2606.06823#bib.bib25) 展示了规划和工具使用的巨大潜力。通过集成领域特定工具，金融专用Agent (Li et al., 2023, https://arxiv.org/html/2606.06823#bib.bib26; Zhang et al., 2024, https://arxiv.org/html/2606.06823#bib.bib27) 扩展了在金融领域的能力。尽管有这些创新，当前系统主要是在开环模拟中运行。它们常常与严格的金融硬约束（例如，杠杆限制、交易成本）脱钩，并且缺乏从执行到模型更新的系统性反馈循环。这种结构性碎片化限制了协同精炼的潜力，即一个模块（例如，制度检测）的见解可以关键性地为另一个模块（例如，Alpha修剪）提供信息。为了解决这些局限性，我们提出了一个基础性的、市场感知的框架，将这些不同的组件集成到一个统一的闭环系统中，实现整个量化投资生命周期的整体优化。

## 3 方法论

为了弥合结构性碎片化，我们提出了一个基础框架，并假设其有效性源于三个机制驱动的假设：

**H1（情境化假设）：** 对市场制度（\(z_t\)）进行显式建模，并使其为所有下游任务提供条件，将产生比假设平稳性的策略更稳健、更具情境感知的策略。

**H2（约束创造力假设）：** 在MCTS搜索中，用一级金融约束（\(\mathcal{C}\)）引导基于LLM的Alpha生成，相比于无约束的生成方法，将产生具有更优样本外鲁棒性和更低金融毒性的因子。

**H3（元适应假设）：** 一个闭环反馈机制，根据回测证据（\(E\)）更新模型参数（\(\theta\)）和约束逻辑（\(\mathcal{C}\)），将使模型能够持续适应非平稳市场，优于静态或开环系统。

我们的框架如图1 (https://arxiv.org/html/2606.06823#S2.F1) 所示，旨在实例化和检验这些假设。表1 (https://arxiv.org/html/2606.06823#S3.T1) 总结了我们的假设与相应机制之间的对应关系。

**表1：科学假设、系统模块与实现机制之间的对应关系。**

### 3.1 市场动态模块 \(\mathcal{M}\)

金融市场本质上是非平稳的，其特征为分布不断变化，这使得静态模型过时。为了解决这个问题，我们将市场感知操作化地实现为连续的潜在制度流形，而非离散标签。模块 \(\mathcal{M}\) 作为一个压缩引擎，将高维异构数据提炼为紧凑、信息丰富的状态表示 \(z_t\)。

##### 潜在状态构建

我们使用 Barra 因子 (Sheikh, 1996, https://arxiv.org/html/2606.06823#bib.bib56)，这些因子是行业标准的风险指标，包括风格（如动量、波动性）和行业暴露，用以表征市场动态。我们在10年的时间跨度内收集了这些因子。为了在减少噪声的同时保留数值保真度，我们采用了一个轻量级自编码器架构来获得低维的 \(z_t\)，该向量保留了市场的连续动态属性。该编码器以无监督方式进行预训练，以最小化重构误差，确保 \(z_t\) 捕捉市场演化的内在流形。

##### 双通道自适应

由于 \(z_t\) 必须同时与LLM的符号推理以及执行模块的数值优化进行交互，我们设计了一个双通道适配器：

- **针对LLM的符号适配器（通道1）：** 为了使连续向量 \(z_t\) 能够被LLM理解，我们采用一个投影MLP，将 \(z_t\) 映射为 \(k\) 个可学习的软 Token。这些 Token 被前置到LLM的输入嵌入序列中。
- **针对控制的数值适配器（通道2）：** 对于需要标量输入的模块（投资组合 \(\mathcal{P}\) 和执行 \(\mathcal{E}\)），一个独立的特征提取网络将 \(z_t\) 映射为具体的控制参数（例如，风险厌恶系数 \(\lambda_t\)、流动性参与率 \(\gamma_t\)）。这种架构确保了一个统一、一致的市场感知 \(z_t\) 驱动Agent的高层推理和底层控制。

### 3.2 LLM驱动的Alpha研究模块 \(\mathcal{R}\)

我们将Alpha挖掘概念化为一个在运算符有向无环图上的受限搜索问题，而不是创意写作。我们实现了一个LLM引导的蒙特卡洛树搜索框架，以导航这个稀疏的解空间。该过程通过四个特定的量化阶段确保鲁棒性，这些阶段在不同的检查点处融入约束集 \(\mathcal{C}\) 和市场状态 \(z_t\)（如图2 (https://arxiv.org/html/2606.06823#S3.F2) 所示）；详细过程见第6.1节 (https://arxiv.org/html/2606.06823#S6.SS1)。

1. 选择 (\(z_t\))
2. 扩展 (LLM) 通过 \(G_{\text{forbidden}}\)
3. 模拟 检查 \(\mathcal{C}_{\text{dynamic}}\)
4. 反向传播 是/否（重新生成）通过 (\(V\)) 失败 (\(V - \lambda\)) \(c(z_t)\) 调节探索 注入 \(\mathcal{C}\) 到提示中

**图2：单次MCTS迭代流程。** 说明了约束集 \(\mathcal{C}\) 的施加位置。\(G_{\text{forbidden}}\)（\(\mathcal{C}\) 的一个子集）在扩展阶段作为硬过滤器，而动态约束 \(\mathcal{C}_{\text{dynamic}}\) 在模拟阶段施加软惩罚。

总之，\(\mathcal{R}\) 将基于LLM的金融创造力从一个开放式生成任务重新定义为一个受约束的、树搜索引导的推理过程。这解决了先前生成式方法的核心局限性（第3.2节）：LLM不仅仅是一个代码生成器，而是一个推理引擎，其提案在搜索循环内不断受到基于模拟的金融验证（公式8）的检验。约束集 \(\mathcal{C}\) 主要通过提示和过滤作为内在正则化器，并通过价值惩罚进行残差强制执行。这种紧密的集成

PandaAI：面向量化金融的神经符号数据分析与集成决策的实用CQ2智能体

相似文章

QuantAgent：基于价格驱动的多智能体大语言模型高频交易框架

MoCA-Agent: 一种用于金融和数值推理的声明市场代码智能体

AI-Trader：在实时金融市场中对自主智能体进行基准测试

PANDO：通过在线技能蒸馏实现高效多模态AI代理

面向受监管行业的智能体AI的不同方法 - 问题探讨

提交意见反馈