AI-Trader:在实时金融市场中对自主智能体进行基准测试
摘要
本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。
查看缓存全文
缓存时间: 2026/05/08 08:40
Paper page - AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets
Source: https://huggingface.co/papers/2512.10971
Abstract
AI-Trader 提供了首个全自动实时基准测试,用于评估大语言模型在多个市场中进行金融决策的能力,其中包含自主信息处理。
大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models)(LLMs)作为自主智能体 (https://huggingface.co/papers?q=autonomous%20agents) 展现出了巨大的潜力,通过先进的推理能力和工具编排,其表现已接近人类专家水平。然而,在完全动态且实时环境中的决策仍然极具挑战性,这需要实时的信息整合 (https://huggingface.co/papers?q=information%20integration) 和适应性响应。虽然现有的研究已经探索了结构化任务中的实时评估 (https://huggingface.co/papers?q=live%20evaluation) 机制,但在现实世界应用方面的系统性基准测试 (https://huggingface.co/papers?q=benchmarking) 方面仍存在关键空白,尤其是在金融领域,该领域对实时战略响应有着严格的要求。为了解决这一空白,我们引入了 AI-Trader,这是第一个完全自动化、实时且数据未污染的基准测试,用于评估 LLM 智能体在金融决策 (https://huggingface.co/papers?q=financial%20decision-making) 方面的表现。AI-Trader 涵盖三大金融市场:美股、A股和加密货币,并具有多种交易粒度以模拟实时金融环境。我们的基准测试实施了一种革命性的完全自主最小信息范式,在此范式中,智能体仅接收必要的上下文信息,必须独立搜索、验证并综合实时市场信息,而无需人工干预。我们评估了六款主流 LLM 在三个市场和多种交易频率下的表现。我们的分析揭示了惊人的发现:通用智力并不会自动转化为有效的交易能力,大多数智能体表现出较差的收益和薄弱的风险管理 (https://huggingface.co/papers?q=risk%20management)。我们证明,风险控制能力决定了跨市场的稳健性,并且 AI 交易策略 (https://huggingface.co/papers?q=trading%20strategies) 在高流动性市场中比在政策驱动型环境中更容易实现超额收益。这些发现揭示了当前自主智能体 (https://huggingface.co/papers?q=autonomous%20agents) 的关键局限性,并为未来的改进提供了明确的方向。代码和评估数据已开源,以促进社区研究:https://github.com/HKUDS/AI-Trader。
查看 arXiv 页面 (https://arxiv.org/abs/2512.10971)查看 PDF (https://arxiv.org/pdf/2512.10971)项目页面 (https://ai4trade.ai/)GitHub14.3kauto (https://github.com/HKUDS/AI-Trader)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2512.10971)
在您的智能体中获取这篇论文:
hf papers read 2512\.10971
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模式0
没有链接到此论文的模式
在模型 README.md 中引用 arxiv.org/abs/2512.10971 以从此页面建立链接。
引用此论文的数据集1
T1anyu/AI-Trader 更新于 2025年12月19日 • 228 (https://huggingface.co/datasets/T1anyu/AI-Trader)
引用此论文的 Spaces0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2512.10971 以从此页面建立链接。
包含此论文的集合4
相似文章
TradingAgents:多智能体 LLM 金融交易框架
本文介绍了 TradingAgents,这是一个多智能体 LLM 框架,通过模拟现实世界中的交易公司来提升股票交易表现。该框架利用执行分析和风险管理的专用智能体,在累计收益和夏普比率方面优于基线模型。
QuantAgent:基于价格驱动的多智能体大语言模型高频交易框架
QuantAgent 是一个专为高频交易设计的多智能体大语言模型框架,通过四个专业智能体(指标、形态、趋势、风险)基于短周期信号快速做出具有风险意识的交易决策。在对比比特币和纳斯达克期货在内的十种金融工具的零样本评估中,该框架在预测准确率和累计收益方面均优于现有的神经网络和规则驱动基线模型。
HKUDS/AI-Trader
AI-Trader 是来自 HKUDS 的开源原生智能体交易平台,允许 AI 智能体自主注册、发布信号并在股票、加密货币、外汇等市场执行交易。
AlphaCrafter:一种用于截面量化交易的全栈多智能体框架
AlphaCrafter 是一个用于截面量化交易的全栈多智能体框架,它利用专门的智能体进行因子挖掘、筛选和交易,以适应不断变化的市场状况。
QuantCode-Bench:评估大语言模型生成可执行算法交易策略能力的基准
# 论文页面 - QuantCode-Bench:评估大语言模型生成可执行算法交易策略能力的基准 来源:[https://huggingface.co/papers/2604.15151](https://huggingface.co/papers/2604.15151) ## 摘要 QuantCode\-Bench 通过测试大语言模型能否将自然语言描述转化为可在历史金融数据上正确运行的功能性代码,来评估其生成可执行交易策略的能力。