@RitOnchain: https://x.com/RitOnchain/status/2069693848478269730

X AI KOLs Timeline 新闻

摘要

本文详细介绍了一家系统性基金如何用基于RAG的LLM代理架构取代其传统NLP流水线,从非结构化数据中实现了alpha生成能力提升340%。文中引用了近期研究(Alpha-GPT 2.0、FinCon、FinAgent),表明在自动化因子发现和交易性能方面取得了显著进步。

https://t.co/fbXcG5WMYo
查看原文
查看缓存全文

缓存时间: 2026/06/24 14:26

量化分析师如何利用LLM代理从非结构化数据中挖掘Alpha(完整RAG框架)

2023年末,芝加哥一家管理约24亿美元多策略股票的中型系统化基金,做了一件他们的竞争对手至今仍不相信真能成功的事。他们用一套基于开源组件的RAG型LLM代理架构,替换掉了原本用于另类数据处理的传统NLP管线——这套管线花了三年时间搭建,涉及14名专职数据工程师、一个定制的实体解析层,以及为金融文本手工打造的情感词汇表。六个月后,他们从非结构化数据中产生的Alpha提升了340%。因子发现周期——即从识别新数据源到拥有实时、经风险验证的信号用于生产——从8周缩短到了72小时。最令人惊讶的是,运行这套系统的两位量化研究员每周产生的可测试假设,比他们之前整个团队一个季度能产出的还要多。

这不是AI厂商的营销故事。这是一个有据可查的模式,已在越来越多的部署大语言模型用于Alpha生成的量化基金中得到复现。它之所以有效(当它有效时),根本原因在于LLM从根本上改变了从非结构化另类数据中提取结构化信号的经济性。传统的NLP管线需要昂贵的特征工程:你要识别实体、构建解析规则、定义情感分类体系,并手动验证每个新因子。而基于LLM的RAG系统则反其道而行之。模型将其预训练的世界知识带入数据;你只需要将其锚定在你特定的金融上下文中,并提供正确的检索架构。

现在已有压倒性的证据表明,这一转变是真实的。来自Yuan等人(2024)的自动Alpha挖掘系统Alpha-GPT 2.0,在WorldQuant国际量化锦标赛(IQC)2024的超过41000名参赛者中排名前10——其凭借的是完全自动化的LLM驱动管线,能够在无需人工干预的情况下发现、实现并验证Alpha因子。FinCon(Yu等人,2025),一个采用经理-分析师层级结构的多智能体LLM系统,在选股任务上实现了113.84%的累计收益率,夏普比率为3.269。FinAgent(Zhang等人,2024),一个用于金融交易的多模态基础智能体,实现了92.27%的累计收益率——相比包括传统深度强化学习方法在内的12个最先进基线,改进了84.39%。LLM驱动的量化研究时代不是即将到来,而是已经到来。但在此之前,我是谁?

关于我:我是Venus(开源信仰者,所以在X上爆内部秘密),一位高级量化系统架构师和后台工程师,有从0到1构建初创公司以及将产品从1到100规模化扩展的经验,领域涵盖AI、云计算、金融科技和DeFi基础设施。欢迎私信联系。我们回到文章。

问题:为什么传统方法在另类数据上失效

要理解LLM为何带来如此根本性的转变,你首先需要明白为什么上一代另类数据处理管线会崩溃。

另类数据——零售停车场的卫星图像、财报电话会议记录、信用卡交易面板、社交媒体情感、供应链货运清单——本质上是以非结构化形式出现的。一张沃尔玛停车场的卫星图像只是像素。一份财报电话会议记录只是带时间戳的文本。信用卡面板数据是匿名、聚合且有噪声的。量化分析师的任务是将这些原始、杂乱、异构的信息转化为结构化的Alpha信号:一个预测未来收益的向量rt ∈ R^n。

传统管线遵循刚性的线性架构:

  • 数据摄取:从供应商(RavenPack、Orbital Insight、Earnest Research)提取原始数据
  • 实体解析:将数据引用映射到可交易证券——当CEO提到“我们的旗舰产品“而不是股票代码时,这比听起来要难得多
  • 特征工程:手工构建特征——情感得分、提及次数、图像衍生的人流量指数
  • 信号构建:通过回归、分类或排序模型将特征转化为投资组合权重
  • 回测与验证:滚动分析、交叉验证、制度相关测试

每一步都需要领域知识、手动调优和脆弱的假设。仅实体解析层就可能消耗数月的工程时间。特征工程是大多数Alpha消亡的地方——研究员从财报电话会议记录中构建一个情感因子,进行测试,发现其信息系数(IC)为0.02,然后就放弃了。他们忽略的是,情感与指引修正方向、分析师预测离散度以及公司资本结构之间存在非线性交互。传统的线性模型如果没有显式特征构造,根本无法捕捉这些交互。

数学框架清晰地暴露了这一局限性。设 D = {d1, d2, …, dm} 表示非结构化文档语料库(会议记录、文件、新闻)。传统NLP构建一个特征映射 φ: D → R^k,其中k很小且φ是手工设计的。然后Alpha模型学习 f: R^k → R^n。问题在于:最佳特征可能不在 φ(D) 的生成空间中。信息系数定义为:

[ IC = \text{corr}(f(\phi(D)), r) ]

从根本上受限于φ的质量。当φ遗漏了关键交互——当真实信号依赖于指引情感与资产负债表杠杆的交集,而你的特征映射却分别捕捉它们时——无论f变得多么复杂,IC仍然很低。

另类数据的爆发使这个问题更加严重。 十年前,一家量化基金每季度可能处理10,000份财报电话会议记录。今天,同一家基金每天处理数百万份文档——社交媒体帖子、跨司法管辖区的监管文件、40多种语言的实时新闻、卫星数据流、网络抓取的用户评论。规模打破了手动特征工程。异构性破坏了结构化解析器。信息的到达速度打破了批量处理管线。

这就是LLM填补的空白。它们不仅仅是更好地解析文本——它们将结构化推理能力、世界知识以及跨模态综合能力带入了量化研究过程本身。

理论:LLM如何推理金融数据

LLM驱动的Alpha生成的理论基础建立在三个相互关联的进步之上:用于金融推理的检索增强生成(RAG)、用于协同研究的多智能体系统,以及大型预训练模型的涌现定量推理能力。

1. 用于金融上下文的检索增强生成(RAG)

朴素LLM进行金融分析的核心问题是幻觉。让一个通用LLM“分析苹果的盈利前景“,它会自信地基于过时的训练数据生成听起来合理的分析。在量化金融中,这不仅错误——而且危险。基于幻觉信号建立的头寸会亏损。

RAG通过将LLM锚定在具体、当前、可验证的数据上来解决这个问题。该架构概念上简单,但对于金融应用需要仔细工程化:

文档嵌入:给定金融文档语料库 D = {d1, …, d_N},每篇文档被分割成块 {c_{i,1}, …, c_{i,m_i}},并使用金融领域嵌入模型嵌入到向量空间中:

[ \mathbf{v}{i,j} = E(c{i,j}) ]

其中 E: T → R^d 是嵌入函数。对于金融应用,领域特定嵌入(例如 BGE-M3、FinBERT 或 BloombergGPT 衍生的嵌入)显著优于通用嵌入。Wu等人(2023)证明,在3630亿token的金融语料库上训练的BloombergGPT,比同等大小的通用模型更精确地捕捉金融语义。

向量搜索:在查询时,金融查询 q(例如“半导体公司的库存水平与营收惊喜之间有何关系?“)使用相同的编码器进行嵌入,并通过近似最近邻搜索检索最相关的 top-k 个块:

[ \text{TopK}(q, D) = \arg\max_{c_{i,j} \in D}^{(k)} \text{sim}(E(q), \mathbf{v}_{i,j}) ]

其中 sim(u, v) = (u · v) / (‖u‖ ‖v‖) 是余弦相似度。在实践中,FAISS 或 Pinecone 即使在数十亿文档的语料库上也能以毫秒级延迟处理此检索。

增强生成:检索到的上下文 C_q = TopK(q, D) 被预置到查询中,LLM 生成一个同时基于两者的响应:

[ r = \text{LLM}_{\theta}(q \oplus C_q) ]

其中θ代表LLM参数。对于Alpha生成,响应r可能是实现因子的Python代码、交易信号的数学表达式,或对公司财务状况的结构化分析。

关键洞察:RAG将LLM从知识检索系统(记忆训练数据)转变为一个在特定金融文档上进行推理的引擎。Alpha不来自LLM的训练数据——它来自LLM对专有或第三方另类数据中的关系、模式和异常进行推理的能力。

2. 用于协同量化研究的多智能体系统

即使带有RAG,单次LLM调用也不足以生成复杂的Alpha。完整的量化研究工作流程包括构思、数学表述、实现、回测、风险分析和投资组合集成——每一步都需要不同的专业知识和验证标准。

多智能体架构将这一工作流程分解为专门的智能体,它们通过结构化协议进行协作。由FinCon(Yu等人,2025)和TradingAgents(Xiao等人,2024)形式化的通用框架遵循层级结构:

设 A = {A1, A2, …, An} 为一组智能体,每个具有专业能力。系统维护一个共享记忆 M 并按轮次运行。在每一轮 t,智能体 Ai 产生一个动作:

[ a_i^{(t)} = f_i(o_i^{(t)}, M^{(t-1)}) ]

其中 f_i 是智能体的策略(通过专门提示实现的LLM调用),o_i^(t) 是智能体的观察。共享记忆更新为:

[ M^{(t)} = \text{update}(M^{(t-1)}, {a_i^{(t)}}_{i=1}^n) ]

FinCon引入了一个经理-分析师层级结构,其中经理智能体将高层研究目标分解为子任务,将它们分配给具有专业技能的分析师智能体(基本面分析、技术分析、情感分析、风险管理),并将它们的输出综合成连贯的策略。这种层级分解形式化为:

[ \text{Goal} \rightarrow {\text{Subtask}_1, …, \text{Subtask}_m} \rightarrow {\text{Output}_1, …, \text{Output}_m} \rightarrow \text{Strategy} ]

TradingAgents通过一个协作决策协议扩展了这一概念,其中多个交易智能体对头寸进行辩论和投票。资产 j 在时间 t 的集成决策为:

[ \text{Decision}{j,t} = \sum{i=1}^n w_i \cdot \text{Vote}_{i,j,t} ]

其中 w_i 是基于历史准确率为智能体 Ai 学习到的权重。这种集成方法降低了单个智能体的幻觉风险并提高了鲁棒性——Xiao等人(2024)证明,多智能体集成在AAPL上实现了26.62%的累计收益率,而买入持有为-5.23%,夏普比率为8.21。

3. 涌现的定量推理

LLM在定量推理方面展现出未被明确训练过的涌现能力。Kim等人(2024)证明,GPT-4在分析财务报表以预测盈利方向时,表现得与专业金融分析师相当——无需针对此任务的显式训练。该模型以类似于基本面分析师思维方式的方式推理应计项目质量、杠杆变化和运营效率。

这种涌现推理可以通过思维链(CoT)提示来形式化。与其直接要求LLM进行预测,CoT引出中间推理步骤:

[ y = \text{LLM}_{\theta}(q \oplus \text{“Let’s think step by step…”}) ]

其中 z_i 是中间推理步骤,y 是最终输出。对于金融分析,这些步骤可能包括:“首先,我们检验营收增长趋势……”,“接下来,分析利润率压缩……”,“最后,与行业同行比较……”。研究表明,CoT提示将金融推理准确性比直接提示提高了15-30%。

关键框架:最佳系统实际如何运作

Alpha-GPT:人机交互式Alpha挖掘

Alpha-GPT(Wang等人,2023;Yuan等人,2024)代表了LLM驱动因子发现的先驱框架。该系统架构遵循四阶段管线:

  • Alpha构思:LLM通过与人类研究员进行交互式对话生成Alpha想法。提示包含关于金融市场、因子类别(动量、价值、质量、情感)以及基于表达式的Alpha语法的领域知识。
  • Alpha实现:生成的想法被翻译为可执行代码——通常使用WorldQuant的WebSim或带有pandas/numpy的Python等表达语言。LLM基于可用数据字段和操作符的规范生成实现。
  • Alpha验证:每个实现的Alpha在历史数据上使用包括信息系数(IC)、信息比率(IR)、换手率和回撤在内的指标进行评估。结果反馈到构思循环中。
  • Alpha增强:遗传编程技术通过变异和交叉操作进化成功的Alpha,探索高性能表达式的邻域。

Alpha-GPT 2.0(Yuan等人,2024)实现了该管线的完全自动化,在常规因子发现中消除了人类在环。该系统在WorldQuant IQC 2024的超过41000名参赛者中排名前10,证明了LLM驱动的Alpha发现能与全球最优秀的人类量化研究员竞争。

关键创新是反馈循环。每个生成的Alpha的性能指标被作为上下文反馈给后续生成,创建了一个进化搜索过程:

[ \text{Idea}_{t+1} = \text{LLM}(\text{Idea}_t, \text{Performance}(\alpha_t)) ]

FinAgent:多模态基础智能体

FinAgent(Zhang等人,2024),发表于KDD 2024,将LLM驱动的交易扩展到多模态输入。与纯文本系统不同,FinAgent处理:

  • 市场数据:价格、成交量、订单簿动态
  • 文本数据:新闻、社交媒体、财报电话会议记录
  • 视觉数据:K线图、技术指标图

该架构使用一个多模态基础模块,将每种输入模态编码到一个共享嵌入空间中,随后是一个动作模块,将多模态表示翻译为交易决策。

FinAgent实现了92.27%的累计收益率,相比包括DQN、PPO和A2C强化学习方法在内的12个基线,改进了84.39%。多模态能力至关重要——该模型学会结合文本新闻情感解读图表模式,实现了模仿自主交易员如何结合技术与基本面分析的综合方式。

FinCon:多智能体协作架构

FinCon(Yu等人,2025),发表于NeurIPS 2025,引入了一种专门为投资组合管理设计的层级多智能体架构:

  • 经理智能体:设定投资目标,在分析师之间分配资本,监控投资组合层面的风险
  • 分析师智能体(多个):每个专注于特定分析类型(基本面、技术、情感、宏观)
  • 风险智能体:评估投资组合敞口,强制执行风险限制,监控回撤

经理-分析师层级结构镜像了传统资产管理公司的组织结构——但以机器速度运行,智能体通过结构化协议而非会议和电子邮件进行沟通。

FinCon实现了113.84%的累计收益率夏普比率为3.269——并且值得注意的是,在同类系统中实现了最低的最大回撤。风险智能体的持续监控防止了困扰单模型方法

相似文章

@RitOnchain: https://x.com/RitOnchain/status/2067562267936534965

X AI KOLs Timeline

关于将循环工程应用于量化研究的全面指南,提出了一个框架,其中LLM代理迭代地感知、推理、行动和观察,以生成和测试alpha因子,并附有完整的代码实现以及与单次提示的比较。

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

X AI KOLs Timeline

文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。

Balyasny Asset Management 如何构建AI研究引擎

OpenAI Blog

Balyasny Asset Management 使用GPT-5.4构建了一个复杂的AI研究引擎,已在投资团队中实现95%的采用率,将复杂研究任务从几天缩短到几小时,同时保持机构合规标准。该系统通过专门代理如Central Bank Speech Analyst和Merger Arbitrage Superforecaster展示了在金融领域的显著实际影响。