Herculean:面向金融智能的智能体基准测试

arXiv cs.AI 论文

摘要

介绍了Herculean,这是一个旨在评估AI智能体在各种任务中金融智能水平的基准。论文提出了一个综合性框架,用于评估金融领域的智能体能力。

arXiv:2605.14355v1 公告类型:新 摘要:随着AI智能体的进步,核心问题已不再是它们能否解决孤立的、定义明确的金融任务,而是它们能否可靠地执行金融专业工作。现有的金融基准测试仅能部分反映这一能力,因为它们主要评估静态能力,如问答、检索、摘要和分类。我们引入了Herculean,这是首个面向智能体金融智能的熟练基准测试,涵盖了四个代表性工作流,包括Trading、Hedging、Market Insights和Auditing。每个工作流都实例化为一个基于MCP的标准技能环境,拥有自己的工具、交互动态、约束条件和成功标准,从而实现对异构智能体系统的一致端到端评估。在对前沿智能体的测试中,我们发现它们在Trading和Market Insights上表现相对较好,但在Hedging和Auditing上则表现吃力,而后两者需要长周期协调、状态一致性和结构化验证。总体而言,我们的结果表明当前智能体在将金融推理转化为高风险金融工作流中的可靠执行方面存在关键差距。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:23

# Herculean:金融智能的智能体基准
来源:https://arxiv.org/abs/2605.14355
作者:Xueqing Peng (https://arxiv.org/search/cs?searchtype=author&query=Peng,+X),Zhuohan Xie (https://arxiv.org/search/cs?searchtype=author&query=Xie,+Z),Yupeng Cao (https://arxiv.org/search/cs?searchtype=author&query=Cao,+Y),Haohang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+H),Lingfei Qian (https://arxiv.org/search/cs?searchtype=author&query=Qian,+L),Yan Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y),Vincent Jim Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+V+J),Huan He (https://arxiv.org/search/cs?searchtype=author&query=He,+H),Xuguang Ai (https://arxiv.org/search/cs?searchtype=author&query=Ai,+X),Linhai Ma (https://arxiv.org/search/cs?searchtype=author&query=Ma,+L),Ruoyu Xiang (https://arxiv.org/search/cs?searchtype=author&query=Xiang,+R),Yueru He (https://arxiv.org/search/cs?searchtype=author&query=He,+Y),Yi Han (https://arxiv.org/search/cs?searchtype=author&query=Han,+Y),Shuyao Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+S),Yuqing Guo (https://arxiv.org/search/cs?searchtype=author&query=Guo,+Y),Mingyang Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+M),Yilun Zhao (https://arxiv.org/search/cs?searchtype=author&query=Zhao,+Y),Youzhong Dong (https://arxiv.org/search/cs?searchtype=author&query=Dong,+Y),Xiaoyu Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+X),Yankai Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+Y),Ye Yuan (https://arxiv.org/search/cs?searchtype=author&query=Yuan,+Y),Qiyuan Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Q),Fuyuan Lyu (https://arxiv.org/search/cs?searchtype=author&query=Lyu,+F),Haolun Wu (https://arxiv.org/search/cs?searchtype=author&query=Wu,+H),Yonghan Yang (https://arxiv.org/search/cs?searchtype=author&query=Yang,+Y),Zichen Zhao (https://arxiv.org/search/cs?searchtype=author&query=Zhao,+Z),Yuyang Dai (https://arxiv.org/search/cs?searchtype=author&query=Dai,+Y),Fan Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+F),Rania Elbadry (https://arxiv.org/search/cs?searchtype=author&query=Elbadry,+R),Ayesha Gull (https://arxiv.org/search/cs?searchtype=author&query=Gull,+A),Muhammad Usman Safder (https://arxiv.org/search/cs?searchtype=author&query=Safder,+M+U),Nuo Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+N),Fengbin Zhu (https://arxiv.org/search/cs?searchtype=author&query=Zhu,+F),Tianshi Cai (https://arxiv.org/search/cs?searchtype=author&query=Cai,+T),Zimu Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z),Polydoros Giannouris (https://arxiv.org/search/cs?searchtype=author&query=Giannouris,+P),Yuechen Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+Y),Zhiwei Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z),Mohsinul Kabir (https://arxiv.org/search/cs?searchtype=author&query=Kabir,+M),Yuyan Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y),Yixiang Zheng (https://arxiv.org/search/cs?searchtype=author&query=Zheng,+Y),Yangyang Yu (https://arxiv.org/search/cs?searchtype=author&query=Yu,+Y),Weijin Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+W),Wenbo Cao (https://arxiv.org/search/cs?searchtype=author&query=Cao,+W),Anke Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+A),Peng Lu (https://arxiv.org/search/cs?searchtype=author&query=Lu,+P),Jerry Huang (https://arxiv.org/search/cs?searchtype=author&query=Huang,+J),Fengran Mo (https://arxiv.org/search/cs?searchtype=author&query=Mo,+F),Mingquan Lin (https://arxiv.org/search/cs?searchtype=author&query=Lin,+M),Prayag Tiwari (https://arxiv.org/search/cs?searchtype=author&query=Tiwari,+P),Yijia Zhao (https://arxiv.org/search/cs?searchtype=author&query=Zhao,+Y),Victor Gutierrez Basulto (https://arxiv.org/search/cs?searchtype=author&query=Basulto,+V+G),Xiao\-Yang Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+X),Kaleb E Smith (https://arxiv.org/search/cs?searchtype=author&query=Smith,+K+E),Jiahuan Pei (https://arxiv.org/search/cs?searchtype=author&query=Pei,+J),Arman Cohan (https://arxiv.org/search/cs?searchtype=author&query=Cohan,+A),Jimin Huang (https://arxiv.org/search/cs?searchtype=author&query=Huang,+J),Yuehua Tang (https://arxiv.org/search/cs?searchtype=author&query=Tang,+Y),Alejandro Lopez\-Lira (https://arxiv.org/search/cs?searchtype=author&query=Lopez-Lira,+A),Xi Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+X),Xue Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+X),Junichi Tsujii (https://arxiv.org/search/cs?searchtype=author&query=Tsujii,+J),Jian\-Yun Nie (https://arxiv.org/search/cs?searchtype=author&query=Nie,+J),Sophia Ananiadou (https://arxiv.org/search/cs?searchtype=author&query=Ananiadou,+S)

View PDF (https://arxiv.org/pdf/2605.14355)

> **摘要:**随着AI智能体的进步,核心问题已不再是它们能否解决孤立的、定义明确的金融任务,而是它们能否可靠地执行金融专业工作。现有的金融基准仅提供了这种能力的部分视角,因为它们主要评估静态能力,如问答、检索、摘要和分类。我们引入了Herculean,这是首个面向智能体金融智能的技能基准,涵盖了四个具有代表性的工作流,包括交易(Trading)、对冲(Hedging)、市场洞察(Market Insights)和审计(Auditing)。每个工作流都实例化为一个基于MCP的标准技能环境,拥有自己的工具、交互动态、约束条件和成功标准,从而能够对异构智能体系统进行一致的端到端评估。在前沿智能体的测试中,我们发现智能体在交易和市场洞察方面表现相对较好,但在对冲和审计方面则明显吃力,后两者需要长期协调、状态一致性和结构化验证。总体而言,我们的结果揭示了当前智能体在高风险金融工作流中,将金融推理转化为可靠工作流执行方面存在关键差距。

## 提交历史

来自:Xueqing Peng Dr [view email](https://arxiv.org/show-email/92e15dc2/2605.14355) **\[v1\]** 2026年5月14日 星期四 04:30:49 UTC (3,734 KB)

相似文章

AI-Trader:在实时金融市场中对自主智能体进行基准测试

Papers with Code Trending

本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。

anthropics/financial-services

GitHub Trending (daily)

Anthropic 发布了一个专为金融服务工作流程(包括投资银行和财富管理)定制的 AI 智能体和插件仓库,可通过 Claude Cowork 或 Managed Agents API 进行部署。