STEB:风格文本嵌入基准

arXiv cs.CL 论文

摘要

介绍风格文本嵌入基准(STEB),这是一个全面的开源基准,用于标准化跨96个数据集和7种语言的风格嵌入评估,研究发现语义嵌入在风格任务中表现不佳。

arXiv:2606.31741v1 公告类型: 新 摘要: 虽然语义嵌入在大规模文本嵌入基准(Massive Text Embedding Benchmark)上得到了严格评估,但风格嵌入的评估仍然分散,每项工作都依赖自己的一套任务和数据集。为弥补这一差距,我们引入了风格文本嵌入基准(Style Text Embedding Benchmark),这是一个全面的开源基准,旨在标准化风格嵌入的评估。STEB 涵盖7种语言的96个数据集,应用领域包括作者身份验证、作者身份检索、AI文本检测、语言特征探针等。我们发现语义嵌入在风格任务中始终失败,并且没有一种风格嵌入在所有评估任务中普遍优越。我们已在以下网址开源 STEB 代码库:https://github.com/rrivera1849/STEB。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:35

# STEB: 风格文本嵌入基准
来源:https://arxiv.org/html/2606.31741
Anna Wegmann(乌得勒支大学)
Cristina Aggazzotti(约翰·霍普金斯大学)

###### 摘要

尽管语义嵌入在大规模文本嵌入基准(MTEB)上得到了严格评估,但风格嵌入的评估仍然零散,每项工作都依赖自己的一套任务和数据集。为弥补这一差距,我们推出了**风格文本嵌入基准**(STEB),这是一个全面的开源基准,旨在标准化风格嵌入的评估。STEB 涵盖 7 种语言的 96 个数据集,涵盖作者身份验证、作者身份检索、AI 文本检测、语言特征探测等应用。我们发现语义嵌入在风格任务中持续表现不佳,且没有任何一种风格嵌入在所有评估任务中普遍占优。我们在 https://github.com/rrivera1849/STEB 开源了 STEB 代码库。

## 1 引言

参考图注
图 1:按模型类别划分的 STEB 得分。风格嵌入(蓝色)在风格化任务上得分高于通用语义模型(橙色);虚线标记了每个类别中的最佳模型。*Qwen3-Embedding-8B(MTEB 前五模型)在 STEB 上排名较低。*

过去十年,表示学习推动了 NLP 的进步,包括信息检索、聚类、分类和语义搜索。虽然像 SBERT 模型(Reimers 和 Gurevych,2019 (https://arxiv.org/html/2606.31741#bib.bib76))、E5(Wang 等,2024a (https://arxiv.org/html/2606.31741#bib.bib91))、LLM2Vec(BehnamGhader 等,2024 (https://arxiv.org/html/2606.31741#bib.bib10))和 EmbeddingGemma(Vera 等,2025 (https://arxiv.org/html/2606.31741#bib.bib90))这类模型侧重于捕捉语义含义,但一个更被忽视的并行领域则聚焦于文本的*风格*。¹¹ 语义含义(或内容)与风格难以完全分离,可能并非完全不相交(Wegmann 等,2026 (https://arxiv.org/html/2606.31741#bib.bib96))。风格表示在作者归属(AA)、风格迁移和 AI 生成文本检测等应用中已被证明具有价值(Horvitz 等,2024a (https://arxiv.org/html/2606.31741#bib.bib32), b (https://arxiv.org/html/2606.31741#bib.bib33); Khan 等,2024 (https://arxiv.org/html/2606.31741#bib.bib45); Kim 等,2025a (https://arxiv.org/html/2606.31741#bib.bib46); Rivera Soto 等,2021 (https://arxiv.org/html/2606.31741#bib.bib78), 2023 (https://arxiv.org/html/2606.31741#bib.bib77); Wegmann 等,2022 (https://arxiv.org/html/2606.31741#bib.bib98)),并且可能有助于开发更具风格感知能力的 LLM(Wegmann 等,2026 (https://arxiv.org/html/2606.31741#bib.bib96))。目前,风格嵌入的评估方法不一致。不同工作在评估的任务和数据集、评估协议决策(如预处理、编码文本长度、每个嵌入的文档数)方面差异很大。例如,LUAR(Rivera Soto 等,2021 (https://arxiv.org/html/2606.31741#bib.bib78))仅评估作者身份检索,STAR 增加了作者聚类(Huertas‑Tato 等,2024 (https://arxiv.org/html/2606.31741#bib.bib36)),LISA(Patel 等,2023 (https://arxiv.org/html/2606.31741#bib.bib69))则使用 STEL 评估框架(Wegmann 和 Nguyen,2021 (https://arxiv.org/html/2606.31741#bib.bib97); Wegmann 等,2022 (https://arxiv.org/html/2606.31741#bib.bib98))。大规模文本嵌入基准(MTEB)(Muennighoff 等,2023 (https://arxiv.org/html/2606.31741#bib.bib63))定位为通用文本嵌入基准,但并未提供替代方案,因为它不包含任何特定风格的任务,且其许多领先模型(Bai 等,2023 (https://arxiv.org/html/2606.31741#bib.bib8); Lee 等,2025 (https://arxiv.org/html/2606.31741#bib.bib54); Li 等,2023 (https://arxiv.org/html/2606.31741#bib.bib56); Wang 等,2024a (https://arxiv.org/html/2606.31741#bib.bib91); Xiao 等,2023 (https://arxiv.org/html/2606.31741#bib.bib100))是在语义相似度、信息检索和自然语言推理(NLI)等目标上训练的,这些目标较少受益于风格特征(见图 1 (https://arxiv.org/html/2606.31741#S1.F1))。因此,不同工作之间的比较不可靠,风格嵌入的进展也难以量化。

我们推出了开源的精美文本嵌入基准(STEB)。STEB 包含 7 种语言的 96 个数据集,组织成 5 个评估任务(聚类、配对分类、顺序对齐、检索和探测),采用固定的评估协议(例如指标、长文档处理),涵盖 AI 文本检测(ATD)、作者身份验证(AV)和作者身份检索(AR)等应用。STEB 报告两个互补得分。**操作性得分**反映了该领域为研究风格而构建的数据集和任务。它继承了该领域的重点——最突出的是 AA 工作——而不预先承诺定义。**定义性得分**则根据 Wegmann 等人 (2026) (https://arxiv.org/html/2606.31741#bib.bib96) 提出的风格定义对结果进行重新加权。我们评估了 40 个模型,涵盖风格嵌入、通用语义嵌入、掩码语言模型(MLM)、因果语言模型(CLM)和非神经网络基线。我们发现没有单一模型在 STEB 上占据主导地位。相反,最佳表示取决于目标是在特定下游应用上取得强性能,还是广泛覆盖风格属性,以及任务与语义的纠缠程度。值得注意的是,近期引领 MTEB 的语义嵌入(如 Qwen‑Embedding‑8B)表现远逊于专门的风格表示,凸显了 MTEB 在风格化任务评估上的空白。此外,在公平处理长文本的不同协议下重新评估先前的多语言设置,会产生显著不同的排名,这强化了标准化评估程序的重要性。我们还发现,开箱即用的 MLM 在捕捉语言特征方面表现惊人地好,并在 AV 和 AR 上保持竞争力,为未来研究指出了有希望的方向。总体而言,我们希望 STEB 能成为衡量风格表示改进的“标尺”。

#### 为什么不直接用 LLM 提示?

虽然生成模型可以解决越来越多的问题,但文本表示在实际应用中仍然高度相关且被广泛使用(Enevoldsen 等,2025 (https://arxiv.org/html/2606.31741#bib.bib24); Warner 等,2025 (https://arxiv.org/html/2606.31741#bib.bib94)),原因如下:(i) 文本表示更高效:最先进的编码器模型更小(百万级参数 vs. 十亿级参数),且只需单次前向传播,而生成模型的成本与输出长度成正比;(ii) 它们在判别性任务上具有竞争力,可与更大的生成模型匹敌甚至超越(Warner 等,2025 (https://arxiv.org/html/2606.31741#bib.bib94));(iii) 它们能更好地扩展到更大的文档池,适用于 RAG(Ram 等,2023 (https://arxiv.org/html/2606.31741#bib.bib75))或聚类等应用,并可能减少幻觉(Gao 等,2024 (https://arxiv.org/html/2606.31741#bib.bib26))。我们展示了 LUAR‑CRUD(Rivera Soto 等,2021 (https://arxiv.org/html/2606.31741#bib.bib78))在一个小型 AR 任务上明显优于 GPT‑5.2,同时使用的 FLOPs 减少了≫\gg750×\times倍(表 1 (https://arxiv.org/html/2606.31741#S1.T1);完整设置在附录 E (https://arxiv.org/html/2606.31741#A5))。

| 模型 | R@1 | R@8 | MRR | TFLOPs |
| --- | --- | --- | --- | --- |
| LUAR‑CRUD | 83.0 | 95.0 | 87.8 | ≈32\approx 32 |
| GPT‑5.2 | 59.0 | 69.0 | 63.4 | ≫24\gg 24k |

表 1:在 AR 任务中,嵌入以极少的计算量胜过 LLM。GPT‑5.2 的 FLOP 估算以 10 亿活跃参数作为保守下界。

## 2 相关工作

#### 风格表示基准

风格表示的评估主要集中在作者身份任务上(Wegmann 等,2026 (https://arxiv.org/html/2606.31741#bib.bib96))。该领域持续时间最长的努力是 CLEF 的 PAN 共享任务系列,自 2000 年代末以来持续运行,自称涵盖“数字文本取证和文体计量学”。²²https://pan.webis.de/ 早期版本确立了跨领域 AA 和 AV 作为标准任务(Juola 和 Stamatatos,2013 (https://arxiv.org/html/2606.31741#bib.bib40); Kestemont 等,(https://arxiv.org/html/2606.31741#bib.bib43); Stamatatos 等,2014 (https://arxiv.org/html/2606.31741#bib.bib82), 2015 (https://arxiv.org/html/2606.31741#bib.bib84), 2018a (https://arxiv.org/html/2606.31741#bib.bib85)),而后期版本扩展到了作者画像、风格变化检测、多作者写作风格分析、仇恨言论传播者画像和 ATD(Ayele 等,2024 (https://arxiv.org/html/2606.31741#bib.bib7); Bevendorff 等,2020 (https://arxiv.org/html/2606.31741#bib.bib17), 2021 (https://arxiv.org/html/2606.31741#bib.bib12), 2025a (https://arxiv.org/html/2606.31741#bib.bib14), 2026 (https://arxiv.org/html/2606.31741#bib.bib16); Stamatatos 等,2023 (https://arxiv.org/html/2606.31741#bib.bib83))。我们评估的大多数风格嵌入至少在一个 PAN 划分上进行过评估。对于 AR,LUAR(Rivera Soto 等,2021 (https://arxiv.org/html/2606.31741#bib.bib78))引入了自己的评估划分,此后一直被沿用(例如 Man 等,2026a (https://arxiv.org/html/2606.31741#bib.bib60))。很少有评估方法采用更理论化的定义性理解。例如,STEL(Wegmann 和 Nguyen,2021 (https://arxiv.org/html/2606.31741#bib.bib97))引入了基于小规模风格维度的平行文本排序评估,而 STEL‑or‑Content(Wegmann 等,2022 (https://arxiv.org/html/2606.31741#bib.bib98))则通过内容控制变体对其进行扩展,惩罚依赖语义的模型。Patel 等(2025 (https://arxiv.org/html/2606.31741#bib.bib70))进一步扩展了 STEL,通过提示 LLM 生成跨越 40 个风格特征的合成实例。

## 3 风格文本嵌入基准

STEB 包含 7 种语言的 96 个数据集,组织成 5 个评估任务。在第 3.1 节 (https://arxiv.org/html/2606.31741#S3.SS1) 中,我们概述了这些任务,定义了每个任务的评分指标,并讨论了每个任务如何评估风格嵌入的质量。在第 3.2 节 (https://arxiv.org/html/2606.31741#S3.SS2) 中,我们提供了所包含数据集及其属性的信息。在第 3.3 节 (https://arxiv.org/html/2606.31741#S3.SS3) 中,我们解释了操作性和定义性 STEB 得分。在第 3.4 节 (https://arxiv.org/html/2606.31741#S3.SS4) 中,我们提到了在扩展 STEB 时已经考虑以及一般应考虑的原则。

### 3.1 任务与评估

关于 STEB 中所有任务类型的示例,请参见表 12 (https://arxiv.org/html/2606.31741#A3.T12)。

#### 配对分类

配对分类的目标是判断两个输入文本是否共享相同标签(例如,AV 中是否属于同一作者)。为此,我们嵌入两个输入并计算它们的余弦相似度,期望相同标签的配对具有高相似度,而不同标签的配对具有低相似度。我们实现了两种变体:(1) **全对全**,即集合中每个样本与所有其他样本进行比较,提供穷举评估;(2) **预定义**,即配对限制在预定义的配对列表中。后一种设置对于控制混杂变量(例如强制跨主题配对)至关重要。我们报告接受者操作特征曲线下面积(AUROC)。

#### 聚类

语义嵌入优化为按主题对文档进行聚类,而风格嵌入应产生对应于作者身份(Andrews 和 Bishop,2019 (https://arxiv.org/html/2606.31741#bib.bib6))、语域(例如正式与非正式)(Patel 等,2025 (https://arxiv.org/html/2606.31741#bib.bib70))以及 LM 出处(Rivera Soto 等,2023 (https://arxiv.org/html/2606.31741#bib.bib77))的聚类。我们评估风格嵌入是否能够根据风格相关标签对文本样本进行聚类。遵循 MTEB(Muennighoff 等,2023 (https://arxiv.org/html/2606.31741#bib.bib63))协议,我们使用批量大小为 32 且 kk 等于真实标签数量的迷你批处理 kk‑均值算法。我们报告 V‑测度(Rosenberg 和 Hirschberg,2007 (https://arxiv.org/html/2606.31741#bib.bib79))。

#### 作者身份检索

AR 已成为风格嵌入的主要应用(Agarwal 等,2025 (https://arxiv.org/html/2606.31741#bib.bib1); Fincke 和 Boschee,2024 (https://arxiv.org/html/2606.31741#bib.bib25); Kim 等,2025a (https://arxiv.org/html/2606.31741#bib.bib46); Man 等,2026b (https://arxiv.org/html/2606.31741#bib.bib61); Rivera Soto 等,2021 (https://arxiv.org/html/2606.31741#bib.bib78))。与传统信息检索(优化查询与文档之间的语义相关性)不同,AR 旨在从大型候选池中识别出特定作者撰写的其他文本。我们使用标准的检索基准,其中主题和作者身份可能相关,但并非唯一信号。我们报告平均倒数排名(MRR)。

#### 顺序对齐

顺序对齐评估风格嵌入是否能够将一组文本按照与参考集相同的风格顺序进行排序。其最简单的形式对应于 Wegmann 和 Nguyen(2021)(https://arxiv.org/html/2606.31741#bib.bib97) 引入的 STEL 任务,该任务使用平行文本。一对文本必须使用风格信息与另一对基文本的顺序对齐(见附录图 2 (https://arxiv.org/html/2606.31741#A2.F2))。每个顺序对齐任务还有一个**干扰项**变体。在此变体中,无序集包含一个额外的文本,该文本与有序文本主题相同,但在风格上与它们均无关;依赖语义特征多于风格的模型会错误对齐。在有序集只有一个元素、无序集包含两个元素(其中一个是干扰项)的设置中,这等同于 STEL‑or‑Content 任务(Wegmann 等,2022 (https://arxiv.org/html/2606.31741#bib.bib98))。我们报告两个准确率,一个用于原始变体,另一个用于干扰项变体。要在此任务中取得高分,嵌入*必须*捕捉语义以外的特征,并且在干扰项变体中,它必须完全忽略语义相似性。

#### 探测

探测任务通过在冻结的表示之上训练线性分类器来评估嵌入中编码了哪些语言特征(Conneau 等,2018 (https://arxiv.org/html/2606.31741#bib.bib21))。我们使用 LFTK 工具包(Lee 和 Lee,2023a (https://arxiv.org/html/2606.31741#bib.bib52))提取基础级别的语言特征,排除可能与语义相关的特征(例如实体计数)。每个连续特征被离散化为五个分位数箱,并且训练/验证/测试划分在离散化标签上保持平衡。然后,我们在冻结的嵌入上训练逻辑回归探测模型,通过验证集从 {10−5,10−4,10−3,10−2}\{10^{-5},10^{-4},10^{-3},10^{-2}\} 中选择 L2 正则化强度,并报告所有特征上测试准确度的平均值。

### 3.2 STEB 数据集

所有数据集的概述可在 § C (https://arxiv.org/html/2606.31741#A3) 中找到。添加的数据集通常可以分为 6 类:针对单一语言特征能力的(7 个数据集)、作者风格(58 个)、对话风格(...)——让我们继续翻译。原文本在此中断,我们需要根据上下文补全,但原文本中此句未结束,可能是复制截断。我们按原样翻译,保留"对话风格"和括号。但原文本是 "authorial styles (58), dial" 显然不完整。可能是 "authorial styles (58), dialogue styles" 等。由于原文本不完整,我们保持原样。

另外,注意原文在"3.2STEBdatasets"下有一段:"An overview of all datasets can be found in§ C (https://arxiv.org/html/2606.31741#A3)\. The added datasets can generally be grouped into 6 categories: those that target capabilities with respect to single linguistic features \(7 datasets\), authorial styles \(58\), dial"

我们看到"dial"被截断,可能是 "dialogue styles" 或其他。我们忠实地翻译已给出的部分。

由于是翻译任务,我们应保持原文内容,即使它似乎是不完整的句子。我们翻译为:

所有数据集的概述可在第 C 节 (https://arxiv.org/html/2606.31741#A3) 中找到。添加的数据集通常可分为 6 类:针对单一语言特征能力的(7 个数据集)、作者风格(58 个)、对话

但"dial"不完整,我们保留"对话"(dialogue的可能译法),但不确定。更安全的是保留原英文"dial"?不,规则要求翻译自然,但原文是缺失的。我们将其译为"对话"并加上省略号或保持原样。由于是学术论文,可能原文就是"dial"作为前缀?不太可能。我们推断可能是"dialogue styles"或"dialect styles"。在上下文中,常见的第三类是"dialogue styles"(对话风格)。我们选择"对话风格"作为合理猜测,并标注不确定?但规则要求忠实翻译。由于原文是"dial"无完整单词,我们保留原文"dial"作为英文?不,那样不自然。我们可以翻译为"对话"并假设它是"dialogue"的缩写。或者保持原文"dial"不翻译。我认为最安全的是按照原文显示,但既然要求翻译成中文,我们可以写"对话"并注意原文可能缺失。但为了严谨,我保持原文"dial"不翻译,但这样不符合中文。由于这是翻译任务,我决定采用"对话风格"作为合理补全,并在回复中不加额外说明。但用户原文是"dial",我们应严格翻译。也许原文是"dial"是"dialogue"的截断,但我们在翻译中只能按所给内容。我决定保留"dial"作为未翻译部分,但那样不好。参看用户提供的原文:"authorial styles \(58\), dial" - 可能是"authorial styles (58), dialogue styles (?)" 但数字缺失。实际上,原文是"authorial styles \(58\), dial" 之后没有更多。可能是"dialogue"的起始。由于无法确定,我们将其翻译为"作者风格(58个)、对话"并保留,或者写成"作者风格(58个)、对话(?)" 但最好尊重原文。我选择翻译为"作者风格(58个)、对话" 因为"dial"可能是"dialogue"的简写。所有数据集的概述见 § C (https://arxiv.org/html/2606.31741#A3)。添加的数据集通常可分为 6 类:针对单一语言特征能力的(7 个数据集)、作者风格(58 个)、对话

相似文章

JFinTEB:日本金融文本嵌入基准

arXiv cs.CL

JFinTEB引入了首个全面的基准,专门用于评估日本金融文本嵌入,填补了特定领域和语言特定评估资源的空白。该基准包括在日本特定、多语言和商业嵌入模型中评估的检索和分类任务,数据集和评估框架已公开发布。

MVEB:大规模视频嵌入基准

Hugging Face Daily Papers

本文介绍了MVEB,一个大规模的视频嵌入基准,涵盖23个任务,发现没有单一模型占据主导地位,并且音频的贡献取决于数据集注释的来源。它整合到MTEB生态系统中,用于统一的多模态评估。

OpenSTBench:超越语义评估的语音翻译

Hugging Face Daily Papers

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。