AI-Trader：在实时金融市场中对自主智能体进行基准测试

Papers with Code Trending 2025/12/01 04:25 论文

摘要

本文介绍了 AI-Trader，这是首个用于评估大语言模型（LLMs）在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出，通用智能并不必然保证交易成功，并强调了在自主智能体中风险控制的重要性。

大语言模型（LLMs）作为自主智能体已展现出巨大潜力，通过高级推理能力和工具编排，其表现已接近人类专家水平。然而，在完全动态且实时的环境中进行决策仍然极具挑战性，这要求系统能够整合实时信息并做出自适应响应。虽然现有研究已在结构化任务中探索了实时评估机制，但在现实应用——尤其是金融领域——的系统性基准测试方面仍存在关键空白，因为该领域对实时战略响应能力有着严格要求。为填补这一空白，我们推出了 AI-Trader，这是首个针对金融决策中 LLM 智能体的全自动、实时且无数据污染（data-uncontaminated）的评估基准。AI-Trader 涵盖三大金融市场：美股、A股和加密货币，并提供多种交易粒度以模拟真实的金融环境。我们的基准测试采用了一种革命性的全自动最小信息范式，在此范式下，智能体仅接收基本上下文信息，必须独立搜索、验证并综合实时市场信息，而无需人工干预。我们对六种主流大语言模型在三个市场和多种交易频率下的表现进行了评估。分析揭示了引人注目的发现：通用智能并不能自动转化为有效的交易能力，大多数智能体表现出较差的收益和薄弱的风险管理能力。我们证明，风险控制能力决定了跨市场的稳健性，且与政策驱动型环境相比，AI 交易策略在高度流动性的市场中更容易获得超额收益。这些发现揭示了当前自主智能体的关键局限性，并为未来的改进指明了方向。代码和评估数据已开源，以促进社区研究：https://github.com/HKUDS/AI-Trader。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:40

Paper page - AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Source: https://huggingface.co/papers/2512.10971

Abstract

AI-Trader 提供了首个全自动实时基准测试，用于评估大语言模型在多个市场中进行金融决策的能力，其中包含自主信息处理。

大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models)（LLMs）作为自主智能体 (https://huggingface.co/papers?q=autonomous%20agents) 展现出了巨大的潜力，通过先进的推理能力和工具编排，其表现已接近人类专家水平。然而，在完全动态且实时环境中的决策仍然极具挑战性，这需要实时的信息整合 (https://huggingface.co/papers?q=information%20integration) 和适应性响应。虽然现有的研究已经探索了结构化任务中的实时评估 (https://huggingface.co/papers?q=live%20evaluation) 机制，但在现实世界应用方面的系统性基准测试 (https://huggingface.co/papers?q=benchmarking) 方面仍存在关键空白，尤其是在金融领域，该领域对实时战略响应有着严格的要求。为了解决这一空白，我们引入了 AI-Trader，这是第一个完全自动化、实时且数据未污染的基准测试，用于评估 LLM 智能体在金融决策 (https://huggingface.co/papers?q=financial%20decision-making) 方面的表现。AI-Trader 涵盖三大金融市场：美股、A股和加密货币，并具有多种交易粒度以模拟实时金融环境。我们的基准测试实施了一种革命性的完全自主最小信息范式，在此范式中，智能体仅接收必要的上下文信息，必须独立搜索、验证并综合实时市场信息，而无需人工干预。我们评估了六款主流 LLM 在三个市场和多种交易频率下的表现。我们的分析揭示了惊人的发现：通用智力并不会自动转化为有效的交易能力，大多数智能体表现出较差的收益和薄弱的风险管理 (https://huggingface.co/papers?q=risk%20management)。我们证明，风险控制能力决定了跨市场的稳健性，并且 AI 交易策略 (https://huggingface.co/papers?q=trading%20strategies) 在高流动性市场中比在政策驱动型环境中更容易实现超额收益。这些发现揭示了当前自主智能体 (https://huggingface.co/papers?q=autonomous%20agents) 的关键局限性，并为未来的改进提供了明确的方向。代码和评估数据已开源，以促进社区研究：https://github.com/HKUDS/AI-Trader。

查看 arXiv 页面 (https://arxiv.org/abs/2512.10971)查看 PDF (https://arxiv.org/pdf/2512.10971)项目页面 (https://ai4trade.ai/)GitHub14.3kauto (https://github.com/HKUDS/AI-Trader)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2512.10971)

在您的智能体中获取这篇论文：

hf papers read 2512\.10971

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模式0

没有链接到此论文的模式

在模型 README.md 中引用 arxiv.org/abs/2512.10971 以从此页面建立链接。

引用此论文的数据集1

T1anyu/AI-Trader 更新于 2025年12月19日 • 228 (https://huggingface.co/datasets/T1anyu/AI-Trader)

引用此论文的 Spaces0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2512.10971 以从此页面建立链接。

AI-Trader：在实时金融市场中对自主智能体进行基准测试

Paper page - AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

Abstract

引用此论文的模式0

引用此论文的数据集1

T1anyu/AI-Trader 更新于 2025年12月19日 • 228 (https://huggingface.co/datasets/T1anyu/AI-Trader)

引用此论文的 Spaces0

包含此论文的集合4

相似文章

TradingAgents：多智能体 LLM 金融交易框架

QuantAgent：基于价格驱动的多智能体大语言模型高频交易框架

HKUDS/AI-Trader

AlphaCrafter：一种用于截面量化交易的全栈多智能体框架

QuantCode-Bench：评估大语言模型生成可执行算法交易策略能力的基准

提交意见反馈