JFinTEB：日本金融文本嵌入基准

arXiv cs.CL 2026/04/20 04:00 论文

text-embeddings benchmark japanese-nlp financial-domain information-retrieval domain-adaptation

摘要

JFinTEB引入了首个全面的基准，专门用于评估日本金融文本嵌入，填补了特定领域和语言特定评估资源的空白。该基准包括在日本特定、多语言和商业嵌入模型中评估的检索和分类任务，数据集和评估框架已公开发布。

arXiv:2604.15882v1 公告类型：交叉摘要：我们介绍了 JFinTEB，这是首个专门为评估日本金融文本嵌入而设计的全面基准。现有的嵌入基准对日本金融文本中的语言特定和领域特定方面的覆盖有限。我们的基准涵盖多种任务类别，包括反映现实且明确定义的金融文本处理场景的检索和分类任务。检索任务利用指令跟随数据集和金融文本生成查询，而分类任务涵盖情感分析、文档分类和源自经济调查数据的领域特定分类挑战。我们在广泛的嵌入模型范围内进行了广泛评估，包括各种大小的日本特定模型、多语言模型和商业嵌入服务。我们在 https://github.com/retarfi/JFinTEB 公开发布了 JFinTEB 数据集和评估框架，以促进未来的研究，并为日本金融文本挖掘社区提供标准化的评估协议。这项工作填补了日本金融文本处理资源中的关键空白，并为推进特定领域的嵌入研究奠定了基础。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:30

# JFinTEB：日本金融文本嵌入基准

来源：https://arxiv.org/html/2604.15882

###### 摘要

我们推出了 JFinTEB，这是首个专门为评估日本金融文本嵌入而设计的综合基准。现有的嵌入基准对日本金融文本中特定语言和特定领域的方面覆盖有限。我们的基准涵盖多种任务类别，包括反映真实和明确定义的金融文本处理场景的检索和分类任务。检索任务利用指令跟随数据集和金融文本生成查询，而分类任务涵盖情感分析、文档分类以及源自经济调查数据的特定领域分类挑战。我们对广泛的嵌入模型进行了广泛的评估，包括各种规模的日本专用模型、多语言模型和商业嵌入服务。我们在 https://github.com/retarfi/JFinTEB 公开发布了 JFinTEB 数据集和评估框架，以促进未来研究并为日本金融文本挖掘社区提供标准化评估协议。这项工作弥补了日本金融文本处理资源的重大空白，为推进特定领域的嵌入研究奠定了基础。

文本嵌入；金融领域；基准评估；领域适配；文本挖掘；信息检索；日语

††copyright:none††conference:第 49 届 ACM SIGIR 信息检索研究与发展国际会议论文集；2026 年 7 月 20-24 日；澳大利亚墨尔本市††booktitle:第 49 届 ACM SIGIR 信息检索研究与发展国际会议论文集 (SIGIR '26)，2026 年 7 月 20-24 日，澳大利亚墨尔本市

## 1. 引言

参考图 1。JFinTEB 基准概览。JFinTEB 是用于评估日本金融文本嵌入的综合基准，涵盖分类、检索和聚类等多样化任务。

文本嵌入为文本数据提供统一表示，并支撑广泛的文本挖掘和自然语言处理任务。基于嵌入的检索是现代信息检索系统的核心组件，包括搜索、问答和推荐。综合基准的开发对于提高嵌入质量至关重要，已建立的评估包括用于英语的 MTEB (Muennighoff 等人，2023)、用于多语言背景的 MMTEB (Enevoldsenen 等人，2025) 和用于日语的 JMTEB (Li 等人，2024)。最近，特定领域的基准如 FinMTEB 已展示了对英语和中文金融应用进行专业评估的重要性 (Tang 和 Yang，2025)。

尽管日本是一个主要金融市场，且 NLP 技术在日本金融机构中的采用不断增长，但不存在用于评估日本金融文本嵌入的统一基准。这一差距代表了在日本金融部门开发和部署嵌入模型的重大限制，其中特定领域的语言模式、监管术语和文化背景需要专业化评估。

特别是，日本金融文本展现出使得通用基准不足的特征。金融披露如季度报告和证券备案使用高度特定领域的术语和固定措辞，这些在通用日语语料库中很少出现。这类语言现象通常出现在嵌入被直接用于检索、聚类或零样本分类的场景中——这些是金融信息系统中常见的设置，但在现有基准中代表不足。这些考虑强调了需要一个专门的基准来系统地评估日本金融领域的嵌入模型。

现有基准在应用于日本金融背景时面临限制。JMTEB (Li 等人，2024) 关注通用日语任务但不包括金融应用，而 FinMTEB (Tang 和 Yang，2025) 仅针对英语和中文的金融领域。此外，金融文本处理需要专业能力包括监管文件分析、市场情感理解和行业分类——这些要求未被当前评估框架充分解决。已有几项相关工作提出了金融 NLP 任务和评估。NTCIR U4 (Kimura 等人，2025) 通过表格检索和提取来解决日本金融文档理解，而 Hirano (2024) 研究了大型语言模型在日本金融任务中的性能。NTCIR FinNum (Chen 等人，2018) 调查了英文金融文本中的数值语义。虽然这些工作提供了有价值的特定任务洞察，但它们不是为在统一的多任务基准框架下评估文本嵌入而设计的。

为了解决这些限制，我们推出了 JFinTEB (日本金融文本嵌入基准)，这是用于评估日本金融文本嵌入的首个综合基准。图 1 说明了我们基准的总体结构。我们的基准包含 11 个精心设计的任务，跨越分类、检索和聚类，覆盖多个金融背景，从监管文件到市场情感分析。我们建立了严格的质量保证协议并评估了 14 个代表性嵌入模型，为日本金融应用中的模型选择提供了基准结果和实践洞察。因此，JFinTEB 通过引入日语金融领域任务来补充现有基准，填补了国内应用和跨语言评估的关键空白。表 1 总结了与 JFinTEB 相比的范围，突出了我们的资源如何补充先前工作。与先前的基准不同，JFinTEB 关注日本金融领域，它结合了语言特定的挑战与对行业至关重要但现有资源中缺失的应用场景。JFinTEB 关注在日本金融应用中观察到的真实和明确定义的信息需求，而不是构建人为困难的任务，这些是嵌入通常用于检索、聚类和分类的场景。因此，一些检索任务在当前模型下展现高性能，突出了嵌入方法在真实金融设置中的成熟度。据我们所知，JFinTEB 是首个在统一评估协议下系统地评估日本金融文本嵌入的多任务基准。我们的设计使得能够在实际信息检索系统中常见的数据分布下进行文本嵌入的可重现评估。

这项工作的贡献三方面：(1) 开发首个包含 11 个经过验证的任务的综合日本金融文本嵌入基准；(2) 系统评估 14 个嵌入模型，包括日本专用和多语言方法；(3) 在 https://github.com/retarfi/JFinTEB 公开发布所有数据集、评估代码和基准结果，以促进日本金融文本挖掘的可重现研究。

表 1. 与先前嵌入基准的比较。缩写：Cls = 分类，Ret = 检索，Clus = 聚类，STS = 语义文本相似度，RR = 重排，PC = 对分类，Summ = 摘要，BM = 双文本挖掘。

## 2. JFinTEB 基准

### 2.1. 任务设计和数据集构建

#### 2.1.1. 分类任务

我们包含了多个现有数据集：chABSA 用于基于方面的情感 (Takahiro Kubo, 2018)、从经济观察者调查派生的三个任务 (领域、情感、视野) (Suzuki 和 Sakaji, 2025)、MultiFin-ja 用于金融新闻标题 (Jørgensen 等人, 2023)，以及 Wikinews 分类 (Nishikawa 等人, 2022)。"视野"对经济观察者调查评论进行二元分类，分为当前状态和未来展望类别，利用调查的固有结构来收集当前和未来经济状况的评估。

此外，我们构建了两个新数据集：Industry 17 和 Industry 33，其中日本维基百科的公司描述与官方 JPX 行业类别对齐，采用两种粒度 (17 和 33 个部门)，实现粗粒度和细粒度评估。通过解析日本维基百科文章中的上市信息模板识别东京证券交易所第一部上市公司页面，并通过与 JPX 数据库的自动匹配来提取股票代码，未进行手动验证。由于 JPX 行业分类将每家公司分配给恰好一个部门，标签分配中不存在歧义。行业标签遵循日本交易所集团 (JPX) 发布的官方分类。Wikinews 分类将 Wikinews 文章分类为政治和经济领域，从之前研究中使用的更广泛的分类结构中提取 (Nishikawa 等人, 2022)。

#### 2.1.2. 检索任务

我们的四个检索任务覆盖多样化的信息访问需求。JaFIn (Tanabe 等人, 2024) 评估金融常见问题解答的检索，PFMT (Hirano 和 Imajo, 2025) 提供多轮监管问答基准。此外，我们使用自动化程序构建两个检索数据集，不进行手动标注。Wikinews 检索将新闻标题与其对应的文章匹配，来自上述相同的政治和经济类别。维基百科检索将公司名称——直接取自日本维基百科文章标题——与其对应的描述配对，使用为 Industry 17/33 识别的同一套东京证券交易所第一部上市公司。这些补充确保了覆盖特定于日本金融背景的新闻驱动和企业信息场景。

#### 2.1.3. 聚类任务

我们通过引入"原因"来扩展先前的设置 (Suzuki 和 Sakaji, 2025)，它将评论分组为 13 个经济推理类别。与早期工作不同的是，它包含了一个"其他"类，我们重新定义了两个频繁的类别 (招聘趋势、就业类型特征) 以提供更平衡的聚类。

### 2.2. 数据集统计和可用性

表 2 呈现了所有任务的统计数据。检索和聚类任务仅使用验证集来选择评估配置，无模型训练；因此，缺少训练集。本研究中策划的所有数据集 (视野、Wikinews (分类和检索)、Industry 17、Industry 33 和维基百科检索) 在 https://github.com/retarfi/JFinTEB 公开提供，不包含任何个人可识别信息。

表 2. JFinTEB 任务统计。Chars 表示验证 (val.) 集中字符数的中位数。

### 2.3. 评估方法

遵循 JMTEB (Li 等人, 2024)，我们为分类 (宏 F1)、检索 (NDCG@10) 和聚类 (V-measure) 采用标准评估协议。我们的实现直接基于 JMTEB 代码库，进行小幅修改以融入金融数据集，确保跨基准的一致性和可重现性。对于所有任务，验证集仅用于选择评估配置，而测试集用于最终报告。对于检索和聚类任务，不进行模型训练；验证数据仅用于选择评估设置，确保跨模型的公平和可重现比较。

### 2.4. 质量保证和验证

我们使用两个稳定性标准来验证任务质量，以确保可靠评估：

**模型族一致性：** 使用具有不同参数规模的三个嵌入模型族——Multilingual E5 (small/large) (Wang 等人, 2024)、Ruri v3 (30M/310M) (Tsukagoshi 和 Sasano, 2024) 和 OpenAI text-embedding-3 (small/large)——我们识别跨两个或更多族展现规模性能反向的任务。只有 MultiFin-ja 在两个族 (E5 和 OpenAI) 中展现这样的反向，可能由于表 2 中显示的样本大小显著较小。

**验证测试稳定性：** 我们排除三个大型模型中验证测试分数差异超过 20% 的任务，指示潜在的分布不匹配或评估不稳定。一个分类任务 (Industry 33) 在三个模型中显示了过度的验证测试分歧。

基于这些标准，我们从最终基准中排除了 MultiFin-ja 和 Industry 33。生成的 JFinTEB 包含 11 个稳定任务，跨越分类、检索和聚类，确保跨多个嵌入模型的一致和可解释的评估结果。

## 3. 评估

我们评估跨不同架构和语言的代表性嵌入模型，主要基于 JMTEB 中报告的强性能进行选择。表 3 总结了模型统计，包括参数大小和最大输入长度。

**日本专用模型：** 我们评估了领先的日本嵌入模型：(1) Ruri v3 系列 (Ruri) (Tsukagoshi 和 Sasano, 2024)，使用对比学习训练并基于日本 ModernBERT (Tsukagoshi 等人, 2025)；(2) Sarashina，源自 1.2B 日本大型语言模型，具有多阶段训练，并在 JMTEB 上达到最先进的性能；以及 (3) GLuCoSE，一个基于 LUKE 的 (Yamada 等人, 2020) 针对日语语义任务优化的模型。

**多语言模型：** 我们包括三个高性能多语言嵌入族：(1) jina-embeddings-v3 (Sturua 等人, 2024) (Jina)，一个基于 XLM-RoBERTa (Conneau 等人, 2020) 的多任务模型，具有 8192 token 容量和 LoRA (Hu 等人, 2022) 适配器；(2) Multilingual E5 系列 (Wang 等人, 2024) (E5)；以及 (3) OpenAI text-embedding-3 (OpenAI)。

**领域适配基准：** 我们包括日本 BERT (BERT) 和日本金融 BERT (FinBERT) (Suzuki 等人, 2023)。

JFinTEB：日本金融文本嵌入基准

相似文章

FINESSE-Bench：面向大语言模型金融领域知识与技术分析的分层基准测试套件

STEB：风格文本嵌入基准

MVEB：大规模视频嵌入基准

MulTaBench：基于文本与图像的多模态表格学习基准测试

TabEmbed：用于表格理解的通用嵌入的基准测试与学习

提交意见反馈