交易前规划：面向RL交易代理的推理时优化

arXiv cs.LG 2026/05/14 04:00 论文

摘要

FPILOT是一个用于RL交易代理的插件式推理时优化框架，它利用价格预测而无需重新训练，在TradeMaster DJ30基准上实现了收益和风险调整指标的一致改进。

arXiv:2605.12653v1 公告类型：新摘要：用于投资组合管理的强化学习代理通常作为静态策略进行训练和部署，在推理时没有机制使用价格预测。我们提出了$\text{FPILOT}$（**Fin**ancial **P**lugin **I**nference-time **L**earning for **O**ptimal **T**rading），这是一个受模型预测控制（MPC）启发的插件式推理时优化框架。我们的关键结构性洞见是，未来价格通常不依赖于单个代理的投资组合分配，因此合适的预测模型可以生成多步价格轨迹，而无需像典型强化学习那样进行迭代的动作条件展开。在每个决策步骤，我们利用预测器的预测价格轨迹构建基于分配的可想象回报目标，并在执行一步交易之前在推理时优化策略。我们的框架与任何预训练代理兼容，并且无需重新训练即可使策略适应预测器的预测。在TradeMaster DJ30基准上对五种策略学习算法进行评估，$\text{FPILOT}$在总回报和基于回报的风险调整指标（夏普、索提诺、卡玛）上产生一致的改进，其中随机策略比确定性策略受益更多。此外，使用校准质量水平的合成预测，我们表明收益随预测器质量一致提高，这表明我们的性能将随着金融预测的进步而提升。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:17

# 交易前计划：面向强化学习交易智能体的推理时优化
来源：https://arxiv.org/abs/2605.12653
查看 PDF（https://arxiv.org/pdf/2605.12653）

> **摘要**：用于投资组合管理的强化学习智能体通常以静态策略进行训练和部署，在推理时缺乏利用价格预测的机制。我们提出 $\text{FPILOT}$（**Fin**ancial **P**lugin **I**nference-time **L**earning for **O**ptimal **T**rading），这是一个受模型预测控制（Model Predictive Control, MPC）启发的插件式推理时优化框架。我们的关键结构性洞察在于：未来价格大多不依赖于单个智能体的投资组合配置，因此合适的预测模型可以生成多步价格轨迹，而无需像典型强化学习那样进行迭代的、动作条件化的展开。在每个决策步骤，我们利用预测器预测的价格轨迹构建一个基于配置的想象收益目标，并在执行单步交易之前对策略进行推理时优化。该框架与任意预训练智能体兼容，无需重新训练即可使策略适应预测器的预测。在 TradeMaster DJ30 基准上对五种策略学习算法进行评估，$\text{FPILOT}$ 在总收益和基于收益的风险调整指标（夏普比率、索提诺比率、卡尔玛比率）上均带来一致的改进，其中随机策略的收益优于确定性策略。此外，通过使用校准质量水平的合成预测，我们展示了收益随着预测器质量的提高而持续改善，这表明我们的性能将随着金融预测的进步而进一步提升。

## 提交历史

来自：Rohan Deb [查看电子邮件（https://arxiv.org/show-email/e40293a2/2605.12653）] **[v1]** 2026年5月12日 星期二 18:58:03 UTC（199 KB）

交易前规划：面向RL交易代理的推理时优化

相似文章

寻找思考的时间：实时强化学习中的规划预算学习

AI-Trader：在实时金融市场中对自主智能体进行基准测试

QPILOTS: 面向流策略的高效测试时Q引导

QuantAgent：基于价格驱动的多智能体大语言模型高频交易框架

TradingAgents：多智能体 LLM 金融交易框架

提交意见反馈