通过高维表示学习弥合自然语言与市场动态之间的鸿沟
摘要
本文探讨了在基于Transformer的架构中,用高维FinBERT嵌入替换标量情感得分,用于短期股价预测,结果表明使用Siamese优化嵌入可提高准确性。
arXiv:2605.30652v1 公告类型:新
摘要:传统的多模态金融预测通常依赖于标量情感得分,这无法捕捉金融新闻的细微差别。为了解决这一信息丢失问题,本文探讨了高维表示学习,通过在基于Transformer的预测架构中用稠密FinBERT嵌入替换离散极性评分。我们在FNSPID数据集上对各种嵌入策略进行了基准测试,包括原始嵌入、注意力加权聚合和自定义Siamese网络。虽然基于注意力的机制在处理金融数据典型的低信噪比时表现不佳,但集成Siamese优化嵌入的方法优于标量基线和原始嵌入方法,表明保留高维叙事上下文可以提高短期股价运动预测的准确性。
查看缓存全文
缓存时间: 2026/06/01 09:30
# 通过高维表示学习弥合自然语言与市场动态之间的差距 来源:https://arxiv.org/html/2605.30652 Brian Y. C. Leung (Mike) [email protected] ###### 摘要 传统多模态金融预测通常依赖标量情感分数,但这种方法无法捕捉金融新闻中的细微差别。为了解决这一信息损失问题,本文探索了高维表示学习,在基于Transformer的预测架构中用密集的FinBERT嵌入替换离散的极性评级。我们在FNSPID数据集上对多种嵌入策略进行了基准测试,包括原始嵌入、注意力加权聚合和自定义孪生网络。尽管基于注意力的机制在处理金融数据典型的低信噪比时表现不佳,但集成孪生网络优化的嵌入在预测短期股票价格变动方面优于标量基线和原始嵌入方法,表明保留高维叙事上下文能够提高预测准确性。 ![[未加标题的图像]](https://arxiv.org/html/2605.30652v1/CS230.png) **通过高维表示学习弥合自然语言与市场动态之间的差距** Yujin Jeong [email protected] Noelle Jung [email protected] Brian Y. C. Leung (Mike) [email protected] ## 1 引言 近年来的研究[jun\_Gu\_2024](https://arxiv.org/html/2605.30652#bib.bib14)[10796670](https://arxiv.org/html/2605.30652#bib.bib20)展示了捕捉金融情感对金融建模的实用性。受向高维表示学习[vinden2025contrastivesimilaritylearningmarket](https://arxiv.org/html/2605.30652#bib.bib21)[guo2024finetuninglargelanguagemodels](https://arxiv.org/html/2605.30652#bib.bib9)转变的启发,本项目旨在弥合情感分类与直接市场预测之间的差距。我们首先复现了建立在结构化数据与提示生成的情感分数融合基础上的基线方法[dong2024fnspid](https://arxiv.org/html/2605.30652#bib.bib6),然后通过将标量情感替换为更丰富的语义表示来扩展这项工作。具体来说,我们研究了利用原始FinBERT[Huang2023FinBERTAL](https://arxiv.org/html/2605.30652#bib.bib11)嵌入、解冻FinBERT用于股票预测、训练自定义孪生网络以学习任务特定嵌入,以及使用注意力加权情感平均值。我们算法的输入是一个包含50天金融新闻嵌入和结构化价格数据的时间序列。然后我们使用基于Transformer的架构输出未来3天的预测收盘价。我们的代码可在Github[Github](https://arxiv.org/html/2605.30652#bib.bib1)上找到。 ## 2 相关工作 我们考察的多模态股票预测过往研究可分为:(1) 标量情感融合和 (2) 语义表示。 **标量情感融合。** 这种传统方法在与结构化数据融合之前将文本简化为极性分数。我们借鉴了Dong等人[dong2024fnspid](https://arxiv.org/html/2605.30652#bib.bib6)的工作,他们在金融新闻与股票价格整合数据集(FNSPID)上建立了基线,通过将ChatGPT导出的离散情感评级与Transformer架构相结合。类似地,Gu等人[jun\_Gu\_2024](https://arxiv.org/html/2605.30652#bib.bib14)提出了FinBERT-LSTM模型,该模型使用FinBERT生成情感指标,然后与历史价格一起输入LSTM。虽然这种计算方法效率高且可解释,但我们认为这种方法存在显著的信息损失,将细微的金融叙事投影为标量会丢弃检测市场信号所需的上下文。 **语义表示与直接预测。** 近年来最先进的研究转向将密集的文本嵌入直接映射到市场走势。像vinden2025contrastivesimilaritylearningmarket[[https://arxiv.org/html/2605.30652#bib.bib21](https://arxiv.org/html/2605.30652#bib.bib21)]和guo2024finetuninglargelanguagemodels[[https://arxiv.org/html/2605.30652#bib.bib9](https://arxiv.org/html/2605.30652#bib.bib9)]的工作应用对比学习和通用大语言模型(例如Mistral、LLaMA)的微调,将文本嵌入直接映射到市场走势,捕捉任务特定的语义细微差别。我们的实验与此方法一致,但不同之处在于我们利用文章摘要而非标题来捕捉更丰富的上下文。同时,我们将FinBERT[Huang2023FinBERTAL](https://arxiv.org/html/2605.30652#bib.bib11)和潜在语义分析(LSA)摘要[gong2001generic](https://arxiv.org/html/2605.30652#bib.bib8)结合起来,应用于FNSPID数据集,以建立一个新的有用基准。与通用模型不同,FinBERT专门在金融文本上预训练,能够更好地把握领域特定的上下文。LSA通过奇异值分解提取语义密集的句子,在输入长度和信息密度之间取得平衡。 ## 3 数据集与特征 我们使用了FNSPID[dong2024fnspid](https://arxiv.org/html/2605.30652#bib.bib6),选择了谷歌(GOOG)、微软(MSFT)、英伟达(NVDA)、苹果(AAPL)和亚马逊(AMZN)。选择这些股票是为了匹配dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]的原始选择标准,该标准聚焦于标普500指数中最具影响力的5只股票。 ### 3.1 市场预测的数据集构建 FNSPID包含与金融新闻摘要对齐的每日股票指标。我们构建了一个时间序列语料库,涵盖所选股票的每日价格-新闻历史,总共得到37,707条记录。数据按时间顺序划分以防止数据泄露,根据回测最佳实践,前80%用于训练,最近20%用于验证。由此得到30,165个训练样本和7,542个验证样本。 **特征工程与归一化。** 与dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]一致,我们使用**开盘价**、**收盘价**和**交易量**作为结构化输入。为确保数值稳定性,这些特征按股票和数据分区进行了Min-Max归一化。 **情感信号处理。** 首先,我们将dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]中使用的ChatGPT API替换为FinBERT。对于标量基线,FinBERT的概率(\(P_{pos}, P_{neg}, P_{neu}\))通过以下公式映射为离散情感分数 \(S\)(范围[1, 5]): \[ S = (P_{neg} \times 1.0) + (P_{neu} \times 3.0) + (P_{pos} \times 5.0) \quad (1) \] 每日分数通过对当天发布的所有文章求平均得到。数据稀疏性是一个挑战,我们所选股票的摘要覆盖率平均仅为7.3%。为了填补缺失的情感,我们采用了dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]使用的递归衰减机制。该方法假设市场情感会持续存在,但会随时间向中性(\(S_{neutral}=3\))衰减: \[ S(t) = S_{neutral} + (S(0) - S_{neutral}) \cdot e^{-\lambda t} \quad (2) \] 其中 \(\lambda = 0.03\) 表示衰减率。在我们后来对高维嵌入的探索中,我们使用前向填充来填补缺失的嵌入。 情感数据的可视化请参见附录中的图4和5。 **时间序列离散化。** 遵循dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]建立的方法论,数据被组织成滑动窗口,回看窗口长度 \(L=50\) 天,预测未来 \(H=3\) 天的目标。因此,我们的最终输入和输出维度如下: - **输入:** \(X \in \mathbb{R}^{B \times 50 \times F}\) - **输出:** \(y \in \mathbb{R}^{B \times 1}\),表示 \(t+3\) 天的**收盘价** 其中 \(B\) 是批次大小,\(F\) 是特征数量。对于我们的基线复现,\(B=64\),\(F=4\)。 #### 3.1.1 示例数据 | 表1:AAPL的50天窗口示例 | 表2:AAPL的新闻摘要示例 | |--------------------------|--------------------------| | 目标日期 | 目标收盘价 | | 2023-03-28 (\(t=52\)) | 157.01 | | 表3:表1的目标变量 | | ### 3.2 表示学习的数据集构建 为了训练我们的自定义孪生网络,我们从FNSPID表格中整理了一个不同的数据子集。 **对比学习的标签生成。** 我们的孪生网络需要由市场影响标注的新闻对。我们将真实市场变动 \(y_{market}\) 定义为前向的收盘到开盘收益率,即从前一天的收盘价到第二天开盘价的变化: \[ y_{market} = \frac{\text{Open}_{t+1} - \text{Close}_{t-1}}{\text{Close}_{t-1}} \quad (3) \] 我们选择前一天的收盘价(\(\text{Close}_{t-1}\))作为基准,以确保参考价格严格早于第 \(t\) 天发布的任何信息,从而避免前瞻性偏差。我们使用孤立森林[liu2008isolation](https://arxiv.org/html/2605.30652#bib.bib15)(污染率5%)过滤异常值,并移除极端价格变动(低于第1百分位和高于第99百分位)以确保稳定性,最终得到1,991,435行数据。\(y_{market}\) 值的分布请参见附录中的图6。 **离散化。** 为了生成正负样本对,我们将连续的 \(y_{market}\) 值离散化为分箱。我们尝试了三种分箱策略:(1) 四分位数、(2) 中位数和 (3) 三分位数。 **采样。** 我们采样了15,000个不同的价格-新闻对,其中12,000个用于训练/验证,3,000个作为保持集用于测试所有三种分箱策略下的嵌入质量。我们排除了用于下游任务的5只股票的新闻,因为孪生训练样本应与端到端Transformer架构的验证集隔离,以防止数据泄露。 ## 4 方法 我们的研究包括三个阶段:复现标量基线、引入原始嵌入集成,以及通过解冻FinBERT、孪生网络和基于注意力的聚合来优化嵌入空间。 ### 4.1 基准复现 在此阶段,我们复现了Transformer和LSTM基线。由于dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]未披露具体的股票代码或超参数,我们近似了实验设置以生成可比结果。因此,我们的验证侧重于匹配相对性能趋势,而非精确数值。尽管我们观察到在Transformer中添加FinBERT情感分数时出现了预期的性能提升,但LSTM模型表现混合,并未始终受益于情感数据。这与dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]的发现一致。自此以后,我们专注于Transformer模型,因为dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]指出它在六种测试架构中表现最佳。 ### 4.2 用嵌入替换情感分数 我们假设无论是ChatGPT还是FinBERT的最终投影层,在生成情感分数时都会去除有价值的信息。这促使我们移除投影层,将FinBERT嵌入直接输入到训练和推理输入中。验证这个假设对于决定是否继续改进嵌入以用于股票预测这一下游任务至关重要。 ### 4.3 进一步改进嵌入 尽管FinBERT在金融文本分析方面优于BERT,但它是在语言任务而非股票市场预测上训练的。我们假设将优化的FinBERT嵌入与结构化数据一起输入到我们的Transformer中,将带来更好的预测。我们通过三种不同的方式来实现这一目标:(1) 解冻FinBERT层、(2) 应用对比学习和 (3) 使用注意力加权聚合。 #### 4.3.1 解冻FinBERT 端到端训练通常能获得更高性能,因为编码器可以学习精确提取下游层所需的信息。在dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]的基线架构中,情感分数是预先计算并输入到模型中的,从而阻止了反向传播进入FinBERT层。我们准备了 \((\textbf{news\_tokens}, open\_price, close\_price, trade\_volume)\) 而不是 \((sentiment\_score, open\_price, close\_price, trade\_volume)\) 作为输入,以便将FinBERT纳入模型的“计算图”中。 #### 4.3.2 对比学习 为了将文本嵌入的语义空间与金融结果对齐,我们实现了一个孪生网络。 **网络架构。** 该架构由两个具有共享权重的相同子网络(塔)组成。每个塔的输入是预训练FinBERT模型生成的768维嵌入向量。我们没有直接使用这些高维嵌入,而是通过多层感知机(MLP)对其进行处理,以引入非线性并过滤语言噪声。每个塔中的具体层序列为:Linear Layer(768 → 256)、ReLU激活、Linear Layer(256 → 64)。输出是一对64维向量,表示在优化流形中的两篇文章。  **分位数分箱。** 我们根据 \(y_{market}\) 使用分位数分箱从数据集中构建训练对 \((X_1, X_2)\)。如果两个样本落入同一个分箱,则标记为“相似”(\(Y=1\)),否则标记为“不相似”(\(Y=0\))。我们选择使用分位数分箱,因为金融数据本质上是随机的。我们尝试了三种分箱策略以确定构建对比对的最佳方法:(1) 四分位数(25/50/25)、(2) 中位数(50/50)和 (3) 三分位数(33/33/33)。 **对比损失。** 网络使用对比损失进行训练,该损失最小化正对之间的欧氏距离 \(D_w\),并最大化负对之间的距离(直至边界 \(m=1.0\))。损失函数定义为: \[ L = \frac{1}{2}[Y \cdot D_w^2 + (1-Y) \cdot \max\{0, m - D_w\}^2] \quad (4) \] 通过最小化这个损失,共享编码器学习一个度量空间,其中邻近度反映市场走势的相似性。 #### 4.3.3 基于注意力的每日情感聚合 dong2024fnspid[[https://arxiv.org/html/2605.30652#bib.bib6](https://arxiv.org/html/2605.30652#bib.bib6)]中使用标准均值池化的方法并非最优,因为每日新闻数量存在显著差异,导致高新闻量天数的噪声稀释了高信号叙事。附录中的图7显示了英伟达每日新闻数量的波动示例。 为了缓解这个问题,我们实现了一个股票特定的注意力机制。我们构造了一个查询-键-值操作,其中**查询(Q)**是可学习的股票特定向量,**键(K)**通过SentenceBERT表示文章的语义主题,**值(V)**是FinBERT情感嵌入。我们通过股票查询 \(q_s\) 与文章键 \(k_i\) 的点积的softmax计算注意力权重 \(\alpha_{s,i}\): \[ \alpha_{s,i} = \text{softmax}\left(\frac{q_s \cdot k_i}{\sqrt{d_k}}\right) = \frac{\exp(q_s \cdot k_i)}{\sum_{j=1}^{|N|} \exp(q_s \cdot k_j)} \]
相似文章
利用大型语言模型进行情感分析:Decentraland MANA代币的多模态分析
本文使用基于BERT的大型语言模型对Decentraland的Discord社区进行情感分析,以提升MANA代币价格预测,并证明融合情感、交易量和市值信息的多模态LSTM模型优于仅使用价格信息的基线模型。
通过检索增强大型语言模型提升金融情感分析
本文介绍了一种检索增强的大型语言模型框架用于金融情感分析,相比传统模型及ChatGPT、LLaMA等大型语言模型,在准确率和F1分数上实现了15%至48%的提升。
从TF-IDF到Transformer:情感分类的比较与集成方法
本文比较了多种机器学习与Transformer模型在电影评论情感分类中的表现,发现RoBERTa达到了93.02%的准确率,而软投票集成方法进一步提升了性能。
时间对比变换器用于金融犯罪检测:通过预测对比编码实现自监督序列嵌入
介绍了时间对比变换器(TCT),一种用于从金融交易中学习时间嵌入的自监督框架,用于欺诈检测。仅使用嵌入时AUC达到0.8644,但并未超过强工程特征(AUC 0.9205 vs 0.9245),表明学习到的表示与现有特征存在重叠。
m3BERT:一种现代、多语言、套娃式双向编码器
本文介绍了m3BERT,一种多语言双向编码器,采用新颖的预训练策略,联合优化跨Transformer层和多个嵌入维度的表示,使得单个模型能够适应不同的资源约束。在Bing-Click工业检索数据集上,它显著优于现有最优模型。