FinPersona-Bench: 自主金融代理纵向心理测量稳定性基准
摘要
介绍了FinPersona-Bench,这是一个用于衡量自主金融代理如何随时间保持其指定行为指令的基准,揭示了任务显著性衰减(MSD),这种衰减随时间距离增加而加剧,并因模型和代理特征而异。
arXiv:2606.31522v1 Announce Type: new
Abstract: 大语言模型(LLMs)正越来越多地被部署为自主金融代理,并初始化为明确的行为指令(如“保本”或“避免投机性押注”),这些指令旨在指导部署过程中的每项决策。然而,在实践中,随着市场背景在长期内累积,这些指令逐渐失去其行为影响力,我们将这一现象形式化为任务显著性衰减(MSD)。为了客观衡量MSD,我们引入了FinPersona-Bench,这是一个模拟基准,其中合成市场将可观察价格与隐藏的基本价值解耦,从而能够对三种失败模式进行可证伪评估:在平静市场中无信号交易、在崩盘期间恐慌性抛售、以及在投机泡沫中忽视基本价值。对18个领先的前沿和开源LLMs(每个被赋予三种行为特征之一,从严格保本到激进增长)的评估表明,MSD随时间累积且依赖模型。在崩盘场景中,静态代理与接受定期任务重新锚定的代理之间的行为差距从模拟的第一个季度到最后一个季度增长了4.4倍。任务重新锚定的效果并非统一正面:它在低信号市场中始终帮助保守型代理,但在相同环境下却主动恶化了激进型代理的行为。这些发现表明,可靠的长期部署需要基于代理特征和市场制度进行选择性、任务感知的重新锚定。
查看缓存全文
缓存时间: 2026/07/01 05:34
# FinPersona-Bench:面向自主金融代理人纵向心理测量稳定性的基准测试
来源:https://arxiv.org/html/2606.31522
Muhammad Usman Safder1∗ Ayesha Gull1∗ Rania Elbadry1 Fan Zhang2 Yankai Chen1,3 Xueqing Peng4 Xue \(Steve\) Liu1,3 Preslav Nakov1 Zhuohan Xie1
1MBZUAI 2东京大学 3麦吉尔大学 4Fin AI 5京都大学
Usmansafderktk@gmail\.com, Zhuohan\.Xie@mbzuai\.ac\.ae
项目网站 (https://usmansafdarktk.github.io/FinPersona-Bench/) 代码仓库 (https://github.com/usmansafdarktk/FinPersona-Bench/)
###### 摘要
大型语言模型(LLM)正越来越多地被部署为自主金融代理人,并在初始化时被赋予诸如“保本”或“避免投机性押注”等明确的行为指令,这些指令旨在指导其在部署过程中的每一项决策。然而在实践中,随着市场背景信息在长期范围内不断累积,这些指令的影响力会逐渐减弱,我们将此现象形式化为“指令显著性衰减”(Mandate Salience Decay, MSD)。为了客观地衡量MSD,我们引入了FinPersona-Bench,这是一个模拟基准测试,其中合成市场将可观测价格与隐藏的基本价值解耦,从而能够对三种失效模式进行可证伪评估:平静市场中的无信号交易、市场崩盘时的恐慌性抛售,以及投机泡沫期间忽略基本价值。我们对18个领先的尖端和开源LLM进行了评估,每个模型被分配了三种行为画像之一,范围从严格保本到激进增长,结果表明MSD会随时间累积,并且与模型相关。在崩盘场景中,静态代理人与定期接收指令重新锚定的代理人之间的行为差距,从模拟的第一个季度到最后一个季度增长了4.4倍。指令重新锚定的效果并非普遍积极:在低信号市场中,它始终有助于保守型代理人,但在相同环境下却会恶化激进型代理人的行为。这些发现表明,可靠的长期部署需要基于代理人画像和市场状况进行选择性、指令感知的重新锚定。
**脚注:同等贡献。
## 1 引言
LLM正越来越多地被部署为自主金融代理人 (Xiao et al., 2024 (https://arxiv.org/html/2606.31522#bib.bib2)),初始化时被赋予明确的行为指令,这些指令定义了它们的风险状况和受托义务。指令是一种固定的行为指示,例如“最大化股息收益率”或“根据动量突破积极交易”,旨在指导代理人在整个部署过程中的决策。这些指令通常被假定会持续存在于整个交互期间。然而在实践中,随着市场背景信息在长期范围内不断累积,这些指令会逐渐减弱 (Rath, 2026 (https://arxiv.org/html/2606.31522#bib.bib12)):一个在部署早期正确持有高现金头寸的代理人,随着时间的推移会变得越来越激进,这并非因为推理失败,而是因为指令相对于周围背景信息的影响力已经丧失 (图1 (https://arxiv.org/html/2606.31522#S1.F1))。
参见图注
图1:指令显著性衰减 (MSD)。一个保本型代理人在200个交易日内的目标现金分配与实际现金分配。不断扩大的差距表明,随着市场背景信息的累积,指令的影响力是如何减弱的。
大多数现有的金融基准测试衡量的是代理人在单一时间点上的所知:知识检索 (Xie et al., 2024 (https://arxiv.org/html/2606.31522#bib.bib3))、考试表现 (Shetty et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib4)) 或短期交易收益 (Chen et al., 2025a (https://arxiv.org/html/2606.31522#bib.bib34))。它们不衡量代理人是否随着时间的推移继续遵循它们被分配的行为画像 (Yu et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib26))。最近的一般NLP研究表明这种一致性是脆弱的:随着上下文变长,模型在遵循其指令方面变得更差 (Hong et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib25)),并且人设在对话过程中会失去一致性 (Choi et al., 2024 (https://arxiv.org/html/2606.31522#bib.bib35); Shekkizhar et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib24))。然而在金融环境中,指令违反会带来直接的受托后果,这种行为漂移在任何客观环境中都尚未被量化。我们将指令遵从性在累积上下文下逐渐削弱的现形式化为“指令显著性衰减”(Mandate Salience Decay, MSD)。MSD捕捉到的是一种行为失效,即使局部推理保持连贯也可能发生:LLM可能执行了一笔盈利的交易,同时违反了其核心风险约束。为了客观地衡量MSD,我们引入了FinPersona-Bench,这是一个模拟基准测试,其合成市场引擎将可观测价格与隐藏的基本价值解耦,提供了数学上定义的真实值,可以据此客观衡量指令违反。我们选择金融模拟作为我们的领域,因为与对话或创意写作不同,内在价值可以被精确定义,从而实现可证伪的评估。代理人的行为画像基于迈尔斯-布里格斯类型指标(MBTI)(Myers and Briggs, 1962 (https://arxiv.org/html/2606.31522#bib.bib33)),但并非将其作为经过验证的人格评估工具,而是作为一种定义风险状况和决策风格的结构化词汇表,这与LLM人设研究的既定实践一致 (Pan and Zeng, 2023 (https://arxiv.org/html/2606.31522#bib.bib56); Jiang et al., 2024 (https://arxiv.org/html/2606.31522#bib.bib57); Serapio-García et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib58))。为了测试该发现是否特定于此框架,我们还额外使用大五人格画像对一组具有代表性的模型子集进行了评估 (Costa and McCrae, 1992 (https://arxiv.org/html/2606.31522#bib.bib59); Furnham, 1996 (https://arxiv.org/html/2606.31522#bib.bib60))。在此环境中,我们评估代理人在三种市场场景下的表现,这些场景涵盖了不同的失效模式:低信号平坦市场、崩盘条件和投机泡沫。为了检验观察到的失效是行为错误而非推理错误,我们将静态代理人(仅在初始化时接收一次指令)与记忆重新锚定的代理人(在每一步重新注入指令)进行了对比。这种实验设计旨在回答我们的核心研究问题:LLM在多大程度上能在扩展的时间范围内保持其行为指令,这种漂移通过哪些失效模式以及以何种速率表现出来?我们的核心贡献如下:
- • 我们将MSD形式化为一种不同于推理错误的行为失效:代理人可以在做出局部连贯甚至盈利的交易的同时,违反其行为指令。
- • 我们引入了FinPersona-Bench,这是一个模拟基准测试,它将可观测价格与隐藏的基本价值解耦,从而能够对指令漂移进行客观、可证伪的测量。
- • 我们通过对18个领先的尖端和开源LLM进行实验表明,MSD会随时间累积,在崩盘场景中,静态代理人与指令重新锚定代理人之间的行为差距在模拟结束时增长了4.4倍。我们进一步表明,指令重新锚定并非普遍有益:其效果取决于代理人画像与市场状况之间的匹配程度。
- • 我们进行了三项诊断性实验:一项安慰剂对照实验表明,重新锚定的作用是通过指令内容而非文本位置实现的;一项大五人格和仅数值消融实验表明,人设-场景对齐的发现并非MBTI框架的产物;一项频率消融实验表明,有效的重新锚定频率因代理人画像而异。
## 2 相关工作
我们将FinPersona-Bench置于关于语言代理人的三方面先前工作之中:金融LLM基准测试、行为漂移和记忆机制。
##### 静态基准测试与主观模拟。先前的工作已在各种金融任务上测试了LLM,包括知识检索 (Yang et al., 2023 (https://arxiv.org/html/2606.31522#bib.bib1); Xie et al., 2024 (https://arxiv.org/html/2606.31522#bib.bib3); Zeng et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib16))、复杂推理 (Shetty et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib4); Xie et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib5)) 和短期交易收益 (Xiao et al., 2024 (https://arxiv.org/html/2606.31522#bib.bib2))。最近的金融评估工作进一步扩展到了多语言和多模态金融理解 (Xie et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib18))、文档问答和披露报告 (Zhou et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib17); Zhang et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib19)),以及端到端的代理性金融工作流程 (Peng et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib20))。然而,这些基准测试主要评估任务绑定能力、检索或提取质量,或工作流程成功与否;它们不衡量代理人的行为在长期范围内如何保持 (Chen et al., 2025b (https://arxiv.org/html/2606.31522#bib.bib21)),且已有研究表明在扩展任务中性能会下降 (Sinha et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib22))。虽然基于代理人的市场模拟提供了更长的评估范围和多个代理人动态 (Yang et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib10); Piao et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib15); Zou et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib30)),它们仍然依赖于历史数据,其中正确的行动常常存在争议 (Lopez-Lira, 2025 (https://arxiv.org/html/2606.31522#bib.bib9); Li et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib29))。FinPersona-Bench通过一个合成市场引擎解决了这两个局限性,该引擎将可观测价格与隐藏的基本价值解耦,用数学定义的真实值取代了历史数据,从而在扩展的时间范围内衡量行为漂移。
##### 行为漂移与人设脆弱性。随着上下文的累积,LLM代理人会偏离其原始指令,这一问题被记录为“上下文腐烂”(Context Rot)(Hong et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib25))。在对话环境中,这表现为“身份漂移”(Identity Drift)(Choi et al., 2024 (https://arxiv.org/html/2606.31522#bib.bib35); Wan et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib32)) 和“代理人漂移”(Agent Drift)(Rath, 2026 (https://arxiv.org/html/2606.31522#bib.bib12))。在专业领域,代理人停止遵循指令,转而模仿周围的上下文,这种模式被称为“回声”(Echoing)(Shekkizhar et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib24))。最近的研究试图通过为代理人分配稳定的个性画像(如MBTI)来解决这个问题 (Besta et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib6); Hartley et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib14)),但这些画像是脆弱的“浅层模拟器”(Shallow Simulators)(Mercer et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib11)),当上下文发生变化时会失效 (Yu et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib26))。我们并非在开放式的对话环境中观察漂移,而是在一个受控的金融环境中量化MSD,并衡量特定市场条件如何导致代理人偏离其被分配的画像。
##### 记忆机制与指令遵从性。评估长期代理人的一个关键挑战在于区分真正的指令遵从与那些看起来合乎逻辑但实际上并未反映代理人被分配指令的输出 (Khanzadeh, 2026 (https://arxiv.org/html/2606.31522#bib.bib27); Lin et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib23); Khatchadourian, 2026 (https://arxiv.org/html/2606.31522#bib.bib28))。为了解决上下文引起的漂移,最近的工作提出了记忆机制和长期记忆基准测试,以帮助代理人随时间保留其指令 (Yan et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib7); Xu et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib8); Shi et al., 2025 (https://arxiv.org/html/2606.31522#bib.bib13); Hu et al., 2026 (https://arxiv.org/html/2606.31522#bib.bib31))。我们使用指令重新锚定并非为了提升一般性能,而是将其作为一种诊断工具,表明当指令与市场状况一致时,它能减少漂移;但当指令与市场状况错配时,则会恶化行为。最终,虽然先前的工作指出了行为漂移的问题并探索了基于记忆的解决方案,但它缺乏一个受控环境来客观衡量这些失效。FinPersona-Bench通过将结构化人设画像、客观市场模拟和记忆诊断结合到一个统一的基准测试中,用于衡量自主金融代理人中的MSD。
## 3 系统设计
如图2 (https://arxiv.org/html/2606.31522#S3.F2) 所示,FinPersona-Bench架构由三个组件组成:一个将可观测价格与隐藏基本价值解耦的合成市场引擎、一个代理人框架,以及一个行为评估流水线。
参见图注
图2:FinPersona-Bench系统架构。该框架包含三个模块:(1) 合成市场,生成可观测价格 \(P_t\) 同时隐藏真实基本价值 \(V_t\);(2) 代理人框架,比较静态、安慰剂和记忆重新锚定的代理人;(3) 行为评估流水线,衡量三种失效模式下的指令显著性衰减。
### 3.1 合成市场环境
为了客观评估代理人行为,我们引入了一个合成市场引擎,该引擎生成具有数学定义属性的金融时间序列。通过构建一个基本价值 \(V_t\) 通过随机噪声过程与市场价格 \(P_t\) 解耦的环境,我们建立了一个客观基线。这使我们能够将行为偏差(幻觉、漂移、恐慌)量化为相对于生成函数的数学错误,而非相对于主观市场基准。我们首先定义真实的基本价值 \(V_t\),其演化遵循:
$$V_t = V_{t-1} \cdot \exp\left( \left( \mu_r^V - \frac{(\sigma_r^V)^2}{2} \right) \Delta t + \sigma_r^V \sqrt{\Delta t} \varepsilon_t^V \right)$$ (1)
其中 \(\varepsilon_t^V \sim \mathcal{N}(0,1)\)。关键在于,驱动价值和价格的两个噪声过程在统计上是独立的 (\(\varepsilon_t^V \perp \varepsilon_t^P\))。这种独立性确保了代理人行为偏离真实值是真正的行为错误,而非相关生成过程的人为产物。(对于崩盘场景,\(V_t\) 则遵循确定性线性下降,以反映基本面的恶化)。在所有场景中,\(P_t\) 作为 \(V_t\) 和场景特定的解耦项 \(d_t\) 的函数生成:\(P_t = f(V_t, d_t)\)。函数 \(f\) 的具体形式,连同完整的代理人观测空间 \(\mathcal{O}_t\) 和逐阶段生成机制,详见附录A (https://arxiv.org/html/2606.31522#A1);情感成分使用相移高斯函数而非真实新闻数据,这是一个刻意的设计选择,因为评估有效性取决于 \(P_t\)/\(V_t\) 的解耦而非情感的真实性。每个场景在概念上被划分为三个时间阶段(建立、事件、解决),以测试不同的行为脆弱性。相似文章
MCP-Persona:通过环境模拟对LLM智能体在实际个人应用中的基准测试
MCP-Persona是一种基准测试,用于评估LLM智能体在与个人账户和本地数据库交互的个性化工具上的表现。实验表明,最先进的智能体在个性化工具使用方面面临显著挑战。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
FINESSE-Bench:面向大语言模型金融领域知识与技术分析的分层基准测试套件
本文介绍了FINESSE-Bench,一个包含八个专业基准、共3,993个问题的套件,用于对大语言模型进行金融能力的分层评估,涵盖专业认证主题与应用交易任务。
基准测试未衡量的:论自主智能体弃权能力的评估
本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。
BehaviorBench:面向行为科学任务的基础模型基准测试
本文介绍了BehaviorBench,一个用于评估基础模型在行为科学任务(包括行为预测、战略决策、主体特征推断和行为知识应用)上表现的综合基准。它还介绍了Be.FM-1.5,一个经过微调的模型,实现了出色的分布对齐,突显了通用模型与行为适应模型之间的差距。