交易前规划:面向RL交易代理的推理时优化

arXiv cs.LG 论文

摘要

FPILOT是一个用于RL交易代理的插件式推理时优化框架,它利用价格预测而无需重新训练,在TradeMaster DJ30基准上实现了收益和风险调整指标的一致改进。

arXiv:2605.12653v1 公告类型:新 摘要:用于投资组合管理的强化学习代理通常作为静态策略进行训练和部署,在推理时没有机制使用价格预测。我们提出了$\text{FPILOT}$(**Fin**ancial **P**lugin **I**nference-time **L**earning for **O**ptimal **T**rading),这是一个受模型预测控制(MPC)启发的插件式推理时优化框架。我们的关键结构性洞见是,未来价格通常不依赖于单个代理的投资组合分配,因此合适的预测模型可以生成多步价格轨迹,而无需像典型强化学习那样进行迭代的动作条件展开。在每个决策步骤,我们利用预测器的预测价格轨迹构建基于分配的可想象回报目标,并在执行一步交易之前在推理时优化策略。我们的框架与任何预训练代理兼容,并且无需重新训练即可使策略适应预测器的预测。在TradeMaster DJ30基准上对五种策略学习算法进行评估,$\text{FPILOT}$在总回报和基于回报的风险调整指标(夏普、索提诺、卡玛)上产生一致的改进,其中随机策略比确定性策略受益更多。此外,使用校准质量水平的合成预测,我们表明收益随预测器质量一致提高,这表明我们的性能将随着金融预测的进步而提升。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:17

# 交易前计划:面向强化学习交易智能体的推理时优化
来源:https://arxiv.org/abs/2605.12653
查看 PDF(https://arxiv.org/pdf/2605.12653)

> **摘要**:用于投资组合管理的强化学习智能体通常以静态策略进行训练和部署,在推理时缺乏利用价格预测的机制。我们提出 $\text{FPILOT}$(**Fin**ancial **P**lugin **I**nference-time **L**earning for **O**ptimal **T**rading),这是一个受模型预测控制(Model Predictive Control, MPC)启发的插件式推理时优化框架。我们的关键结构性洞察在于:未来价格大多不依赖于单个智能体的投资组合配置,因此合适的预测模型可以生成多步价格轨迹,而无需像典型强化学习那样进行迭代的、动作条件化的展开。在每个决策步骤,我们利用预测器预测的价格轨迹构建一个基于配置的想象收益目标,并在执行单步交易之前对策略进行推理时优化。该框架与任意预训练智能体兼容,无需重新训练即可使策略适应预测器的预测。在 TradeMaster DJ30 基准上对五种策略学习算法进行评估,$\text{FPILOT}$ 在总收益和基于收益的风险调整指标(夏普比率、索提诺比率、卡尔玛比率)上均带来一致的改进,其中随机策略的收益优于确定性策略。此外,通过使用校准质量水平的合成预测,我们展示了收益随着预测器质量的提高而持续改善,这表明我们的性能将随着金融预测的进步而进一步提升。

## 提交历史

来自:Rohan Deb [查看电子邮件(https://arxiv.org/show-email/e40293a2/2605.12653)] **[v1]** 2026年5月12日 星期二 18:58:03 UTC(199 KB)

相似文章

寻找思考的时间:实时强化学习中的规划预算学习

arXiv cs.LG

本文引入了可变延迟实时强化学习,其中智能体决定在环境持续运行的情况下需要多长时间的思考,并提出了一种轻量级的门控策略来选择基于状态的规划预算,在多个实时游戏中优于固定预算和启发式基线。

AI-Trader:在实时金融市场中对自主智能体进行基准测试

Papers with Code Trending

本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。

QPILOTS: 面向流策略的高效测试时Q引导

arXiv cs.LG

QPILOTS是一种方法,通过使用从噪声中间状态投影的评论家梯度,在推理时引导流策略,在离线到在线强化学习基准上实现了最先进的性能,并在不修改基础策略的情况下改进了预训练的VLA模型。

QuantAgent:基于价格驱动的多智能体大语言模型高频交易框架

Papers with Code Trending

QuantAgent 是一个专为高频交易设计的多智能体大语言模型框架,通过四个专业智能体(指标、形态、趋势、风险)基于短周期信号快速做出具有风险意识的交易决策。在对比比特币和纳斯达克期货在内的十种金融工具的零样本评估中,该框架在预测准确率和累计收益方面均优于现有的神经网络和规则驱动基线模型。

TradingAgents:多智能体 LLM 金融交易框架

Papers with Code Trending

本文介绍了 TradingAgents,这是一个多智能体 LLM 框架,通过模拟现实世界中的交易公司来提升股票交易表现。该框架利用执行分析和风险管理的专用智能体,在累计收益和夏普比率方面优于基线模型。