当摘要扭曲决策:LLM压缩财务分析中的信息保真度
摘要
本文研究了基于LLM的财务文档压缩如何因丢失上下文限定词和引入模型依赖偏差而扭曲投资决策,并提出了Agentic Context Compression方法来审计与原始来源的分歧。
arXiv:2606.29251v1 公告类型:新的
摘要:财务决策者面临的信息量远超其直接审查能力,因此上下文压缩变得必要。然而,当大型语言模型(LLM)压缩财务原始材料时,可能会改变原始来源所支持的投资判断。我们将此问题定义为信息保真度:当压缩改变了来源所引发的决策时,压缩就失去了保真度。在代理系统中,这种损失可能在中间步骤中重复出现,并在整个决策过程中放大。通过对财务文件和收益电话会议记录的分析,我们发现基于LLM的压缩可以产生流畅且事实合理的压缩上下文,但会改变下游决策。我们分析了与保真度损失相关的两种诊断模式:去语境化,即保留显著证据但脱离正确解释所需的警示和上下文限定词;以及模型依赖性,即不同的压缩器对同一来源展现不同的视角。然后,我们提出了Agentic Context Compression,它生成多个候选压缩并审计它们与原始来源的分歧。我们的结果表明,财务压缩不仅应根据效率或事实性进行评估,还应根据其保留决策相关上下文的能力进行评估。
查看缓存全文
缓存时间: 2026/06/30 05:33
# 当摘要扭曲决策:LLM压缩金融分析中的信息保真度 **来源**: https://arxiv.org/html/2606.29251 Hoyoung Lee¹, ¹⁰Suhwan Park¹, Seunghan Lee², Jun Seo², Jaehoon Lee², Sungdong Yoo², Minjae Kim², CheolWon Na³, Zhangyang Wang⁴, Zach Golkhou⁵, Minkyu Kim⁶, Sotirios Sabanis⁷, Alejandro Lopez-Lira⁸, Dhagash Mehta⁹, Soonyoung Lee², Chanyeol Choi¹⁰, Wonbin Ahn²,†, Yongjae Lee¹, ¹⁰† ¹UNIST, ²LG AI Research, ³成均馆大学, ⁴德克萨斯大学奥斯汀分校, ⁵摩根大通, ⁶道富银行, ⁷爱丁堡大学, ⁸佛罗里达大学, ⁹贝莱德, ¹⁰LinqAlpha ###### 摘要 金融决策者面对的信息量远超其可直接审查的范围,因此上下文压缩成为必要。然而,当大型语言模型(LLM)压缩金融源材料时,可能会改变原始来源所支撑的投资判断。我们将此问题定义为**信息保真度**:当压缩改变了源文本所引发的决策时,即发生保真度损失。在智能体系统中,此类损失可能在中间步骤中重复出现,并在整个决策过程中被放大。在财务申报文件和财报电话会议记录中,我们发现基于LLM的压缩可以生成流畅且事实合理的压缩上下文,但这些上下文却改变了后续决策。我们分析了与保真度损失相关的两种诊断模式:**去语境化**——显著证据被保留,但与其正确解读所需的警示和语境限定词分离;以及**模型依赖性**——不同压缩器对同一源文本展现出不同的视角。接着,我们提出**智能体上下文压缩**,该方法生成多个候选压缩结果,并针对原始源文本审计它们之间的分歧。我们的结果表明,金融压缩不仅应根据效率或事实性进行评估,还应依据其保留与决策相关语境的能力进行评估。 --- # 当摘要扭曲决策:LLM压缩金融分析中的信息保真度 Hoyoung Lee¹, ¹⁰Suhwan Park¹, Seunghan Lee², Jun Seo², Jaehoon Lee², Sungdong Yoo², Minjae Kim², CheolWon Na³, Zhangyang Wang⁴, Zach Golkhou⁵, Minkyu Kim⁶, Sotirios Sabanis⁷, Alejandro Lopez-Lira⁸, Dhagash Mehta⁹, Soonyoung Lee², Chanyeol Choi¹⁰, Wonbin Ahn²,†, Yongjae Lee¹, ¹⁰† ¹UNIST, ²LG AI Research, ³成均馆大学, ⁴德克萨斯大学奥斯汀分校, ⁵摩根大通, ⁶道富银行, ⁷爱丁堡大学, ⁸佛罗里达大学, ⁹贝莱德, ¹⁰LinqAlpha ††脚注: †通讯作者: [email protected] (https://arxiv.org/html/2606.29251v1/[email protected]); [email protected] (https://arxiv.org/html/2606.29251v1/[email protected]) ## 1 引言 见图1中的标题。 **图1:压缩引发的决策翻转。** 上下文压缩可能导致决策者得出与原始源文本所支持的决策不同的结论。例如,在原始源文本中支持**看涨**决策的信息,在压缩后可能导致**看跌**决策。 大型语言模型(LLM)越来越多地被用于将长文档压缩为较短的上下文,然后再将这些上下文传递给另一个模型或人类决策者。在金融等高风险领域,只有当压缩后的上下文保留了支持决策所需的源证据时,它才有用。长上下文压缩本质上也是开放式的。一份金融源文本没有唯一正确的摘要,因为不同的摘要可以选择不同的证据,同时保持流畅和合理。 本文研究一个简单但后果严重的失败模式:LLM压缩后的表示可能导致决策者做出与完整源文本所支持的判断不同的金融判断,如图1 (https://arxiv.org/html/2606.29251#S1.F1) 所示。该问题不仅限于幻觉或事实不一致。它还取决于哪些证据仍然可见、这些证据如何被语境化,以及相互矛盾的信号如何被平衡。 现有的压缩评估通常衡量重建、事实一致性或表面信息保留 (Łajewska 等,2025 (https://arxiv.org/html/2606.29251#bib.bib17)),但它们并未直接测试压缩是否保留了原始来源所支持的决策。我们将此问题定义为**信息保真度**,即如果压缩表示保留了原始来源所蕴含的决策,则其具有高保真度。一篇摘要可能保留了头条事实,但忽略了解读这些事实所需的警示或抵消信息,从而在保持事实正确的同时诱导出不同的决策。 我们考察了两种有助于表征保真度损失的结构化模式。**去语境化**基于以下研究工作:孤立的陈述需要语境才能保持其意义 (Choi 等,2021 (https://arxiv.org/html/2606.29251#bib.bib20);Gunjal 和 Durrett,2024 (https://arxiv.org/html/2606.29251#bib.bib21))。压缩可能保留头条声明,同时剥离与决策相关的警示、比较或预期框架。当此类语境被移除时,一个事实正确的摘要仍可能带有不同的决策含义。**模型依赖性**的动机源于以下证据:不同LLM的投资分析存在差异 (Lee 等,2025 (https://arxiv.org/html/2606.29251#bib.bib11))。在我们的设定中,相关的差异不仅在于不同模型如何分析相同的证据,还在于每个压缩器从同一源文本中保留了哪些证据。这些模式表明,决策变化并非随机退化,而是反映了压缩后可见证据的系统性差异。 这些观察结果启发了一种基于源文本的压缩方法,该方法保留语境限定词,并比较同一源文本的多个压缩视图。我们将此方法实例化为**智能体上下文压缩**,其中智能体生成相互竞争的压缩上下文,并针对原始源文本审计它们之间的分歧。我们评估信息保真度,并在季度申报文件和财报电话会议记录上比较几种压缩方法。 我们的主要贡献如下: - • 我们引入了**信息保真度**,这是一个以决策为中心的标准,用于评估LLM上下文压缩相对于原始源文本的表现。 - • 使用真实的季度申报文件和财报电话会议记录,我们展示了基于LLM的压缩可能改变决策,其中去语境化和模型依赖性作为重复出现的诊断模式出现。 - • 我们提出了**智能体上下文压缩**,这是一种基于源文本的程序,用于审计多个候选压缩上下文,并证明它减少了压缩引发的决策翻转。 ## 2 相关工作 ### 2.1 上下文压缩 上下文压缩已成为基于LLM的系统中的一个核心问题。先前的工作表明,LLM中介的表示可能会在智能体上下文更新 (Zhang 等,2026 (https://arxiv.org/html/2606.29251#bib.bib2)) 和委托文档工作流 (Laban 等,2026 (https://arxiv.org/html/2606.29251#bib.bib3)) 中退化源信息。压缩后的上下文可能保留一般主题,同时丢弃必要的细节,这激发了超越效率的接地和信息保留指标 (Łajewska 等,2025 (https://arxiv.org/html/2606.29251#bib.bib17))。相关的研究线探讨了压缩应保留什么:LLM的显著性仅与人类判断弱对齐 (Trienes 等,2025 (https://arxiv.org/html/2606.29251#bib.bib23)),而共形摘要形式化了在高风险设置中覆盖关键内容 (Kuwahara 等,2025 (https://arxiv.org/html/2606.29251#bib.bib22))。即使是最新的以连贯性和关键信息为目标的生成式提示压缩 (Zhang 等,2025 (https://arxiv.org/html/2606.29251#bib.bib30)),也主要通过任务质量或摘要指标进行评估,而非保留源文本蕴含的决策。 ### 2.2 摘要失真 通过LLM的重复生成可能累积性地扭曲源信息 (Mohamed 等,2025 (https://arxiv.org/html/2606.29251#bib.bib1))。摘要同样可能通过选择性重新加权内容以及未能保留视角或极性平衡来扭曲源文本。FairSumm 衡量源文本与摘要之间的视角差距 (Zhang 等,2024 (https://arxiv.org/html/2606.29251#bib.bib6));意见摘要可能放大多数极性并削弱少数极性 (Lei 等,2024 (https://arxiv.org/html/2606.29251#bib.bib7));LLM可能在生成过程中隐式解决分歧,从而压制少数观点 (Aghaebe 等,2026 (https://arxiv.org/html/2606.29251#bib.bib8))。LLM生成的新闻摘要也通过选择性强调和省略引入框架 (Pastorino 和 Moosavi,2025 (https://arxiv.org/html/2606.29251#bib.bib29))。 LLM生成的摘要还可能改变读者的决策,同时保持流畅和合理。Alessa 等 (2025 (https://arxiv.org/html/2606.29251#bib.bib27)) 发现LLM生成的内容可以诱导框架效应和首因偏差,并改变人类的购买决策,而 Peters 和 Chin-Yee (2025 (https://arxiv.org/html/2606.29251#bib.bib28)) 发现LLM对科学研究摘要往往省略范围限制细节并过度泛化结论。总之,这些研究表明摘要并非中性压缩,而是一个选择和聚合视角的过程 (Mayilvaghanan 等,2025 (https://arxiv.org/html/2606.29251#bib.bib18)),其中选择性省略本身可能是一种偏见形式 (Zhukova 等,2025 (https://arxiv.org/html/2606.29251#bib.bib24))。我们将此见解扩展到金融源文本,通过考察哪些与决策相关的证据被保留。 ### 2.3 金融LLM决策偏差 对金融LLM的研究表明,它们产生的投资判断可能受到公司名称、资产类别、先验知识或评估设计的系统性偏差。Glasserman 和 Lin (2023 (https://arxiv.org/html/2606.29251#bib.bib9)) 表明公司名称和通用知识可能干扰金融情感预测。Nakagawa 等 (2024 (https://arxiv.org/html/2606.29251#bib.bib10)) 量化了金融情感分析中的公司特定偏差。Lee 等 (2025 (https://arxiv.org/html/2606.29251#bib.bib11)) 分析了LLM投资分析中的模型特定投资偏好和确认偏差。Kong 等 (2026 (https://arxiv.org/html/2606.29251#bib.bib12)) 将这些议题置于更广泛的评估框架中,并认为金融LLM评估必须明确考虑偏差。 ## 3 信息保真度 ### 3.1 问题形式化 #### 任务。 我们将信息保真度定义为相对于源文本的决策保留:当压缩文本所引发的决策模型信念与原始源文本引发的信念接近时,压缩具有高保真度。给定源文本 \(s\),压缩模型 \(\mathcal{M}\) 产生压缩文本 \(c\),以子弹点数量衡量,必须遵守固定预算 \(B\): \[ c = \mathcal{M}(s) \quad \text{subject to} \quad |c| \leq B. \] (1) 我们在各方法之间固定 \(B\),以便保真度差异反映每种方法保留了什么,而非写了多少。实现 token 比率 \(\tau = \mathrm{tok}(c) / \mathrm{tok}(s)\) 按描述进行报告。 决策模型 \(\mathcal{E}\) 将任何文本映射到标签集 \(V = \{\text{bear}, \text{neutral}, \text{bull}\}\) 上的信念分布,即 \(\mathcal{E}(\cdot) \in \Delta(V)\),即 \(V\) 上的概率单纯形。对于每个固定文本,我们平均 \(R=3\) 次独立的决策运行,得到源信念 \(p_s\) 和压缩信念 \(p_c\): \[ p_s = \frac{1}{R} \sum_{r=1}^{R} \mathcal{E}^{(r)}(s), \quad p_c = \frac{1}{R} \sum_{r=1}^{R} \mathcal{E}^{(r)}(c), \] (2) 其中 \(c = \mathcal{M}(s)\) 是固定的,\(\mathcal{E}^{(r)}\) 是第 \(r\) 次决策模型运行。它们的顶部决策是最可能的标签: \[ \hat{v}_x = \operatorname*{arg\,max}_{v \in V} p_x(v), \quad x \in \{s, c\}. \] (3) 我们用两个指标量化其损失。**决策翻转率**是源文档中顶部决策在压缩后发生变化的比例: \[ \mathrm{Flip} = \frac{1}{N} \sum_{i=1}^{N} \mathbf{1}\!\left[ \hat{v}_c^{(i)} \neq \hat{v}_s^{(i)} \right], \] (4) 其中 \(i\) 索引 \(N\) 个源文档;而**总变差距离 (TVD)** \(d_{\mathrm{TV}}(p_c, p_s)\) 衡量即使顶部决策未变化时信念分布移动的程度: \[ d_{\mathrm{TV}}(p_c, p_s) = \frac{1}{2} \sum_{v \in V} \bigl| p_c(v) - p_s(v) \bigr|. \] (5) 翻转率捕捉彻底的决策变化,而 TVD 捕捉可能未跨越决策边界的较小信念漂移。对于每种方法,我们报告 TVD 在源文本上的均值。 见图2中的标题。 **图2:一次性压缩下的决策变化。** 柱状图显示了四种压缩器在MD&A和财报电话会议上的决策翻转率和相对于源文本的TVD。虚线表示决策模型随机性下限:同一个决策模型再次读取原始源文本,未进行任何压缩。 ### 3.2 LLM上下文压缩 我们通过调用语言模型来实现压缩算子 \(\mathcal{M}\)。遵循 Kang 等 (2025 (https://arxiv.org/html/2606.29251#bib.bib19)),我们记 \(\mathrm{LLM}(x; \theta, \mathcal{P})\) 为具有预训练权重 \(\theta\) 的模型,其在自然语言提示 \(\mathcal{P}\) 下将输入 \(x\) 映射到输出。 #### 朴素提示。 朴素基线是单次传递 \(c = \mathrm{LLM}(s; \theta, \mathcal{P}_{\text{comp}})\):模型接收完整源文本和固定的子弹点预算,然后选择它认为最重要的事实。完整提示见附录 D (https://arxiv.org/html/2606.29251#A4)。 #### 语境化。 语境化使用相同的固定预算,但改变了什么值得保留的标准。它不是选择看起来本身重要的事实,而是要求压缩器保留使每个重要点可解释的细节:相关的比较、警示、抵消信号或限定词。在相同的模型、源文本和预算下,它使用 \(\mathcal{P}_{\text{ctx}}\) 生成候选上下文 \(\tilde{c} = \mathrm{LLM}(s; \theta, \mathcal{P}_{\text{ctx}})\)。这个目标也作为停止条件:如果候选上下文将预算用于孤立的事实,而缺少判断它们所需的细节,则压缩器会重新查看源文本并再次选择。机制不变;仅选择标准从孤立显著性转变为可解释的证据。 ### 3.3 智能体上下文压缩 我们进一步考虑**智能体上下文压缩 (ACC)**,它将相同的算子 \(\mathcal{M}\) 实现为一个两阶段智能体压缩过程。首先,智能体调用LLM候选生成工具,从同一源文本 \(s\) 生成语境化的候选上下文 \(c_k = \mathrm{LLM}(s; \theta_k, \mathcal{P}_{\text{ctx}})\),其中 \(k\) 索引不同的压缩模型。其次,智能体针对源文本审计集合 \(\{c_k\}\) 中的分歧。在步骤 \(t\),它从最新的工具观察 \(o_t\) 和历史 \(\mathbf{h}_{t-1} = (o_1, a_1, ..., o_{t-1}, a_{t-1})\)
相似文章
每个行为都有代价:前沿大语言模型中的压缩道德组合
本文介绍了Moral Trolley Arena,一个评估大语言模型如何在同一选项中组合多种道德信号的基准,发现复合判断是压缩的而非加性的。
信任却未验证:大型语言模型来源评估中的认知盲区
这篇论文识别了大型语言模型(LLM)中的一个失败模式:在综合多个来源时,模型不会验证数值统计的有效性,而是依赖分析严谨性的文体标记。作者将此称为“认知对齐”(epistemic alignment),并表明该现象在多个模型和领域中持续存在,且抵制基于提示的缓解措施。
投机解码的经济学
一篇关于混合专家模型和压缩注意力如何改变LLM推理中投机解码成本效益的技术分析,解释了推测令牌何时不再那么免费。
公平输出,偏见内部:大语言模型在高风险决策中潜在偏见的因果效力与非对称性
本文研究了指令微调的大语言模型如何在高风险决策(如抵押贷款承销)中表现出公平输出,同时保留有偏见的内部表征,表明这些隐藏偏见具有因果效力、非对称性,且可通过激活引导加以利用。
Janus:大语言模型中目标导向信息扭曲的基准测试
介绍Janus,一个衡量大语言模型在给定说服性目标时如何选择性扭曲事实信息的基准测试。实验表明,即使不编造虚假信息,模型仍容易产生误导性沟通。