LLM交易代理中的表示特征与风险反馈对齐

arXiv cs.LG 2026/05/29 04:00 论文

llm trading-agents alignment representation risk-feedback financial-ai interpretability

摘要

本文研究了LLM代理在金融交易中的行为对齐与表示动态，介绍了TradeArena测试平台，并发现规划嵌入中存在可测量的故障前特征，这些特征能在多种前沿模型与压力条件下高精度预测回撤。

arXiv:2605.28850v1 公告类型：新摘要：我们研究了大型语言模型（LLM）代理在金融决策环境中的行为对齐与表示动态。通过TradeArena（一个可审计的交易代理测试平台，具备风险报告、执行模拟、记忆和可重放轨迹），我们分析了在市场压力下，推理、持仓和干预如何演变。我们发现了可测量的故障前特征：规划嵌入漂移偏离正常状态质心，融合的计划-风险表示能将正常状态与回撤前状态分离，并且流形诊断显示故障前有效秩收缩。为解决小样本和嵌入选择问题，我们使用了八条LLM轨迹中的80个滚动故障锚点，并表明收缩在哈希、LSA、Transformer和白盒隐藏状态探测中持续存在。压力测试包括无CoT的目标权重、词汇控制、OHLCV噪声和虚假审计报告，结果表明：没有推理时推理级收缩可能消失，而意图空间收缩可能保持；词汇多样性不会崩溃；融合的特征在噪声下仍具有信息量。我们还发现，结构化风险反馈可以在不进行微调的情况下作为外部对齐信号，但并非通用的性能增强器：真实的审计反馈能改善部分模型的校准，另一些模型的回报和回撤，并揭示了隐蔽或安慰剂反馈具有更高短期回报但对齐诊断较弱的案例。最后，一项51只股票的日内实验揭示了一个相关性盲点：LLM的推理常常证明对耦合资产集中暴露的合理性，而风险层反复削减这些暴露，以滚动Markowitz基线作为协方差参考。这些结果支持研究声明而非盈利声明：可审计的风险反馈和表示轨迹揭示了LLM金融推理何时对齐、漂移或失败。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:11

# 表示签名与LLM交易智能体中的风险反馈对齐  
来源：https://arxiv.org/html/2605.28850  

###### 摘要  

我们研究了大型语言模型（LLM）智能体在高风险金融决策环境中的行为对齐与表示动态。利用 TradeArena（一个可审计的交易智能体测试平台，具备结构化风险报告、执行模拟、记忆与可重放轨迹），我们探究了模型推理、预期头寸与风险干预在历史及合成市场压力下的演变。核心发现是：LLM 决策表示在失败前表现出可测量的预兆信号——在回撤之前，规划嵌入会偏离正常状态质心，融合的计划-风险表示能够以高达 0.807 的平衡准确率区分正常状态与预回撤状态，且流形诊断显示出有效秩收缩。为解决小样本与嵌入选择方面的疑虑，我们将分析从最大回撤窗口拓展至 80 个滚动失败锚点（涵盖八条 LLM 轨迹），获得 320 个预失败步骤；在确定性哈希嵌入、语料级潜在语义分析（LSA）、基于 GPT-5.5 和 Gemini 3.1 Pro 的 BGE-M3 Transformer 嵌入，以及白盒 Qwen2.5 隐藏状态探测中，收缩现象依然存在。随后，我们通过无思维链的目标权重消融、词汇控制、高达 20% 的高斯 OHLCV 噪声注入以及反向虚假审计报告来压力测试这一解释。这些探测表明：当移除推理时，语言层面的收缩可能消失，而意图空间的收缩在某些模型上可能仍然存在；词汇多样性在失败前并未崩溃；在三个前沿模型上，即使存在重度噪声，融合签名仍保持高于 0.84 的平衡准确率；对抗性虚假严重审计会引发保守漂移，但并未带来可靠的性能提升。我们进一步表明，结构化风险反馈在无需微调的情况下可作为外部对齐信号，但并非普遍的性能助推器：在一个缓存的 Poe 中介前沿矩阵中（涵盖 GPT-5.5、Gemini 3.1 Pro、Kimi K2.5、GLM-5 和 Claude Opus 4.7），加上直接的 DeepSeek V4 Pro 危机探测，真实审计反馈对某些模型同时改善了回报和回撤，对另一些模型改善了校准，同时也暴露出一些反例，其中隐藏或良性安慰剂反馈在回报上表现更好，但在对齐诊断上更差。针对 2022 年科技/利率回撤和 2023 年硅谷银行/地区银行冲击的真实危机场景探测表明，同一套审计机制暴露了风险门压力、反馈校准差异以及可识别压力路径上的相关配对集中。最后，一个 51 只股票的盘中实验揭示了一个相关盲点：LLM 生成的推理常常为紧密耦合配对中的高权重辩护，而风险层则反复削减由此产生的集中度；其中包含一个滚动 Markowitz 基线，以将该高维设定与经典协方差驱动配置联系起来。这些结果支持一个研究主张而非盈利主张：可审计的风险反馈与表示轨迹揭示了 LLM 金融推理何时对齐、漂移或失败。  

## 1 引言  

LLM 智能体使得构建能够观测数据、调用工具、生成推理并在序列环境中行动的系统变得更加容易。金融是一个自然但高风险的应用场景：智能体可能综合市场数据、新闻、宏观信号、记忆、投资组合状态和风险约束，然后提出交易。然而，许多评估将这一过程简化为单一收益率曲线或理想化的回测。此类评估可能隐藏以下信息：智能体是否使用了未来信息、其风险约束是否被强制执行、执行假设是否现实、统计不确定性是否重要、或者其他研究人员能否重现该决策。  

本文研究的是一个科学问题，而不仅仅是展示一个工具：当 LLM 智能体在显式约束下做出金融决策时，它们的表示和意图是否揭示了可测量的对齐或失败信号？我们的论点是肯定的，但前提是评估必须记录完整的观察-规划-风险-行动-反思生命周期。单靠收益率曲线无法显示模型是否预见到了回撤、是否幻觉出无依据的上下文、是否从风险报告中学习、或者是否反复提出需要外部风险层纠正的集中头寸。科学贡献围绕决策动态而非软件工件组织：  

- **失败的表示签名**：我们展示 LLM 规划及融合的计划-风险表示在回撤低谷前发生偏移，并在哈希、LSA、BGE-M3 Transformer、无思维链及噪声注入的诊断视角下表现出有效秩收缩。  
- **风险反馈对齐与过度对齐**：我们展示结构化风险报告可以在上下文中改变后续模型意图，而安慰剂和反向报告可能引发过度保守却未带来同等性能收益。  
- **高维金融推理的局限性**：我们识别出一种相关盲点失效模式，即 LLM 使用名称层面的推理为紧密耦合的股票对分配高意图。  
- **可审计的实验基础**：TradeArena 是通过可重放轨迹、风险报告、执行事件和表示诊断使这些主张可测量的基础平台。  

仅考虑预测因子或策略评分 | 理想化成交与无摩擦市场 | 稀疏日志与弱可重现性  
评估缺口  
智能体生命周期轨迹 | 执行真实性与风险控制 | 可重放的审计证据  

图 1：动机。TradeArena 将评估目标从一揽子回报转变为可问责的交易决策系统。  

## 2 相关工作  

**投资组合评估与风险。** 经典投资组合理论形式化了预期回报与风险之间的权衡[1]，而夏普比率等绩效指标仍然是比较交易策略的常用汇总统计量[2]。TradeArena 采用了这些熟悉指标，但并未将其视为充分条件。相反，绩效会与回撤、行为、执行、风险审计和可重现性指标一并报告。  

**市场执行与回测真实性。** 执行质量可能实质性地改变策略结果。最优执行研究讨论了随时间推移的交易成本与风险[4]，而回测过拟合研究警告说，表面上的绩效可能是选择和评估设计的产物[5]。TradeArena 的回应是明确执行假设：真实运行包含佣金、滑点、延迟、流动性约束、拒绝订单、挂单和部分成交，而理想执行运行则被视为消融实验而非默认证据。  

**LLM 智能体与工具使用。** 现代语言智能体研究强调，有用的智能体通常将推理、工具使用、记忆和行动交织在一起。ReAct 风格智能体将推理轨迹与行动结合[6]，Toolformer 研究可调用工具的语言模型[7]，而生成式智能体工作则说明了记忆和状态在长期运行的智能体行为中的重要性[8]。TradeArena 将这种智能体原生视角适应于交易：每个决策步骤可以包含观察、规划、工具输出、风险审查、执行、反思和记忆更新。  

**表示几何与坍缩。** 表示学习工作已经表明嵌入几何可能变得各向异性或失去有效多样性[9]，而神经坍缩分析则研究在强训练压力下表示如何向低维结构收缩[10]。我们的设置有意不同。经典的神经坍缩关注有监督训练末期阶段的隐藏激活，通常是最后一层围绕类别质心的几何。我们并不声称观察到 LLM 内部的隐藏状态坍缩，也不检查训练动态或内部激活。我们仅借用几何语言作为外部行为诊断：即行动智能体的可观察文本、风险和意图表示在金融失败前是否变得秩更低。因此，有效秩被用来量化智能体外部行动与推理轨迹中的认知窄化与决策多样性丧失，而非关于内部神经状态的主张。  

**认知框架。** 金融决策也受到不确定性下的行为偏差影响[3]。我们仅将此视角用作解释框架，而非关于 LLM 内部的心理主张。相关的类比是，语言模型可能偏好连贯的名称层面叙事而非二阶统计结构，并可能在压力下表现出决策空间窄化。这些想法促使我们对高维投资组合中的叙事偏见和失败前表示几何中的认知窄化进行分析。  

**定位。** 目标并非取代金融回测引擎或声称实时市场盈利能力。TradeArena 是一个可审计的研究基础，用于使金融智能体决策动态可检查。其最接近的方法论关切是收益率曲线与重建、审计和压力测试每个智能体决策所需证据之间的差距。表 1 总结了与现有工作的关系。FinRL 和 FinRL-Meta 强调强化学习环境与金融市场基准[11, 12]；Qlib 提供面向 AI 的量化投资平台，包含数据与模型工作流[13]；FinGPT 专注于金融大语言模型与数据中心适配[14]；TradingAgents 探索多智能体 LLM 交易组织[15]。TradeArena 是互补的：它记录了测试表示漂移、风险反馈对齐和执行敏感决策失败所需的证据。  

表 1：与相关系统的可审计证据比较。该表比较的是重点而非实时市场绩效。  

## 3 设计目标  

TradeArena 围绕六个设计目标组织。  

**模块化：** 数据提供者、分析师、策略、风险门、执行模拟器、记忆存储和评估器使用窄接口。  

**可重现性：** 每次运行记录观察、信号、决策、风险报告、订单、成交、投资组合状态、记忆事件和指标。  

**执行真实性：** 真实模拟器考虑佣金、滑点、延迟、参与限制、拒绝订单、挂单和部分成交。  

**风险意识：** 决策可以路由通过结构化的交易前、交易中和交易后风险报告。  

**可审计性：** 轨迹包含解释交易为何发生以及提交后发生了什么所需的证据。  

**智能体原生评估：** 每个步骤记录从现代 LLM 智能体系统预期的观察-规划-工具-风险-行动-反思生命周期。  

## 4 系统架构  

数据层  
市场、新闻、宏观、合成适配器  

智能体生命周期  
观察、规划、提议、修订、反思  

风险层  
预算检查与风险报告  

执行模拟器  
成本、延迟、成交、拒绝  

记忆与工具  
信号、日志、计算器、回测  

轨迹日志  
状态、轨迹、报告、种子  

评估输出  
指标、表格、图表、原始 JSON  

图 2：TradeArena 架构。组件可替换，但所有路径汇聚到可重放轨迹和评估输出。  

核心包暴露了类似插件的接口，用于数据、分析、策略、风险、执行、记忆和评估。这种分离是有意的。交易智能体研究通常将数据访问、提示设计、投资组合构建、执行和评估耦合到一个流水线中，使得难以辨别观察到的收益是来自更好的信号、更宽松的风险约束、不现实的成交还是评估泄漏。TradeArena 将这些关注点隔离，以便一个组件可以替换而基准的其余部分保持不变。图 2 中的架构反映了四个设计选择。  

首先，观察与决策分离：数据层提供带时间戳的市场和上下文输入，而智能体生命周期记录这些输入如何转化为意图。  

其次，风险是一个第一类阶段而非事后指标：风险层可以在决策到达执行模拟器之前削减、阻止或注释决策。  

第三，执行被建模为环境响应：订单可能被延迟、部分成交、拒绝，或以滑点和佣金成交。  

第四，每个阶段都写入一个共享轨迹，该轨迹成为指标、图表和逐步骤审计检查的证据基础。参考基准使用确定性合成市场数据，以便无需外部数据访问即可重现这些机制；真实数据适配器和基于模型的智能体可以添加而无需更改日志记录约定。  

## 5 实验设置  

### 5.1 研究问题  

实验围绕五个研究问题组织，而非一长串狭窄范围的主张：  

1. 核心系统：风险门、执行假设、压力条件和组件消融如何改变基准行为？  
2. 鲁棒性：主要结论是否在不同随机种子、异质合成市场、历史滚动窗口和盘中执行压力下保持稳定？  
3. 智能体动态：在风险层干预后，记忆、风险反馈和跨模型反思是否改变了预期头寸？  
4. 表示与信任：计划/反思嵌入和幻觉代理能否暴露决策漂移和无依据推理？  
5. 可扩展性：在包含 50 多只股票、1 小时投资组合任务且存在非平凡跨资产相关性的情况下，基准是否仍具信息量？  

### 5.2 基准协议与基线  

实验套件使用三个合成资产、120 个决策期，以及种子 3、7 和 11 用于完整轨迹生成基准。所有案例共享相同的初始资本、评估代码、日志模式和轨迹写入器。扩展套件结合了合成控制、历史市场案例、直接提供者 LLM 合理性检查以及缓存的 Poe 中介前沿模型矩阵。为在不使研究膨胀到数百条原始轨迹的情况下加强统计可靠性，评估还运行了核心合成案例的 30 种子鲁棒性扫描、120 市场异质合成压力测试以及四窗口滚动历史验证。这些鲁棒性扫描报告包含置信区间、配对差异、胜率和 p 值的汇总表，而非逐步骤 JSON 轨迹。表 2 列出了实验族。  

表 2：扩展实验矩阵。完整合成轨迹使用种子 3、7 和 11；统计鲁棒性使用种子 1–30；历史鲁棒性使用滚动两年窗口。  

核心比较包括一个提议智能体和三个基线或消融：  

1. 风险感知

LLM交易代理中的表示特征与风险反馈对齐

相似文章

智能体交易：当LLM智能体遇上金融市场

TradingAgents：多智能体 LLM 金融交易框架

超越智能体架构：基于LLM的交易系统中的执行假设与可重复性

探究LLM风险决策中的结果层面相似性与机制层面一致性：来自圣彼得堡博弈的证据

Agent Bazaar：在多智能体市场中实现经济对齐

提交意见反馈