基于 MIPVU 框架的 Token 级中文隐喻识别多架构可复现基线

arXiv cs.CL 论文

摘要

本文利用 MIPVU 框架和 PSU 中文隐喻语料库,建立了用于 Token 级中文隐喻识别的可复现多架构基线。研究比较了 RoBERTa 和 MelBERT 等编码器模型与 Qwen3.5-9B 生成式模型的性能,并开源代码和数据以推动后续研究。

arXiv:2605.07170v1 公告类型:新论文 摘要:隐喻在日常语言中无处不在,然而与英语相比,在 MIPVU 框架下对中文中隐喻相关词汇进行 Token 级计算识别的研究仍相对不足。本文针对 PSU 中文隐喻语料库(PSU CMC)提出了一个 Token 级隐喻识别的可复现多架构基线,这是目前唯一广泛可用的经过 MIPVU 标注的中文语料库。我们系统地比较了三类模型:(i) 使用中文 RoBERTa-wwm-ext-large 进行编码器微调;(ii) 使用基于《现代汉语词典》第七版(MCD7)新构建的基础含义资源适配的中文 MelBERT,该资源包含 74,823 个词条,对 PSU CMC 词汇的覆盖率为 71.51%;以及 (iii) 使用 QLoRA 微调的 Qwen3.5-9B,作为指令微调的生成式基线。在五个固定随机种子下,MelBERT MIP-only 取得了最佳性能,测试集正样本 F1 分数为 0.7281 +/- 0.0050,略高于 MelBERT Full(0.7270 +/- 0.0069),明显高于基础 RoBERTa(0.7142 +/- 0.0121)。Qwen QLoRA 生成式配置落后于编码器基线约 11 个 F1 百分点(0.6157 +/- 0.0113)。三项发现值得关注:(1) MelBERT 的 SPV 通道在中文中未能提供可靠的正信号,这与常规隐喻的主导地位一致;(2) Qwen 与编码器之间的差距主要集中在召回率上,反映了生成式输出在离散承诺方面的局限性;(3) 几种 Qwen 任务设定因格式设计问题而非模型能力不足而失败。我们发布了所有分割清单、每个随机种子的输出结果、MCD7 基础含义嵌入流程以及训练脚本,旨在为未来的中文隐喻识别研究提供通用参考。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 06:51

# 基于MIPVU框架的中文Token级隐喻识别的可复现多架构基线
来源: https://arxiv.org/html/2605.07170
\[ BoldFont = lmroman10\-bold\.otf, ItalicFont = lmroman10\-italic\.otf, BoldItalicFont = lmroman10\-bolditalic\.otf, \] \[ BoldFont = lmsans10\-bold\.otf, ItalicFont = lmsans10\-oblique\.otf, \] \[ ItalicFont = lmmono10\-italic\.otf, AutoFakeBold = 2\.0, \]\\setCJKmainfont\[Extension=\.otf, BoldFont=FandolSong\-Bold\]FandolSong\-Regular

###### 摘要

隐喻在日常语言中无处不在,然而相对于英语而言,基于MIPVU框架在中文中对隐喻相关词进行Token级的计算识别仍探索不足。本文提出了一个在宾州州立大学中文隐喻语料库(PSU CMC,目前唯一广泛可用的经过MIPVU标注的中文语料库)上进行Token级隐喻识别的可复现多架构基线。我们系统比较了三种模型家族:(i) 使用中文RoBERTa-wwm-ext-large进行编码器微调;(ii) 通过利用从《现代汉语词典》第七版(MCD7)构建的新基本意义资源(包含74,823个条目,覆盖PSU CMC词汇的71.51%)将MelBERT适配到中文;以及 (iii) 使用QLoRA微调的Qwen3.5-9B作为指令微调生成式基线。在五个固定种子下,仅使用MIP通道的MelBERT(MelBERT MIP-only)取得了最佳性能,测试正向F1得分为0.7281±0.0050,略微高于完整三通道MelBERT(0.7270±0.0069),并明显高于纯RoBERTa(0.7142±0.0121)。Qwen QLoRA生成式配置落后于编码器基线约11个F1点(0.6157±0.0113)。三个值得关注的发现包括:(1) MelBERT的SPV通道在中文中未能提供可靠的正向信号,这与常规隐喻的主导地位一致;(2) Qwen与编码器之间的差距主要集中在召回率上,反映了生成式输出离散承诺的限制;(3) 几种Qwen任务表述因格式设计而非模型容量问题而失败。我们发布了所有分割清单、每个种子的输出、MCD7基本意义嵌入管道以及训练脚本,旨在为未来的中文隐喻识别研究提供共同参考。

## 1 引言

隐喻在日常语言中无处不在(Steen等人, 2010 (https://arxiv.org/html/2605.07170#bib.bib3)),其计算识别是一个长期存在的问题,在情感分析、机器翻译、话语理解和语言教育等领域具有应用价值。隐喻识别程序(MIP)(Pragglejaz Group, 2007 (https://arxiv.org/html/2605.07170#bib.bib11))及其操作化版本MIPVU(Steen等人, 2010 (https://arxiv.org/html/2605.07170#bib.bib3))提供了Token级隐喻标注的主要语言协议:如果某个词汇单位的语境意义不同于但其可以通过与更具体或基本意义的比较来理解,则该单元被判定为与隐喻相关。

对于英语而言,MIPVU推动了大量的研究项目。从biLSTM-CRF标记器到基于Transformer的序列标签器, successive systems在VU Amsterdam隐喻语料库和TOEFL论文上进行了评估(Mao等人, 2019 (https://arxiv.org/html/2605.07170#bib.bib12); Su等人, 2020 (https://arxiv.org/html/2605.07170#bib.bib13); Gong等人, 2020 (https://arxiv.org/html/2605.07170#bib.bib14)),而最近最具影响力的架构MelBERT(Choi等人, 2021 (https://arxiv.org/html/2605.07170#bib.bib5))明确地将其设计建立在MIP和选择偏好违例理论之上。相比之下,中文方面的情况则显得单薄得多。Lu和Wang(2017 (https://arxiv.org/html/2605.07170#bib.bib1))引入了PSU中文隐喻语料库(PSU CMC),这是唯一广泛可用的Token级MIPVU标注中文语料库,然而PSU CMC一直是一个被评估不足的基准:现代编码器微调、MelBERT风格的词汇融合以及指令微调的大型语言模型(LLMs)尚未在共享种子协议下并公开发布构件的情况下进行系统比较。

本文旨在填补这一空白。我们以务实的方式对待这个问题:**2026年针对PSU CMC的Token级隐喻识别的一个仔细且可复现的基线是什么样的?**具体而言,我们比较了覆盖方法论空间的三种模型家族:(i) 使用中文RoBERTa-wwm-ext-large的标准编码器微调(Cui等人, 2021 (https://arxiv.org/html/2605.07170#bib.bib6));(ii) 适配到中文的MelBERT,这需要一种目前尚不存在于开放形式的中文基本意义资源;以及 (iii) 使用QLoRA微调的Qwen3.5-9B(Dettmers等人, 2023 (https://arxiv.org/html/2605.07170#bib.bib8); Hu等人, 2022 (https://arxiv.org/html/2605.07170#bib.bib7))作为指令微调生成式基线。

MelBERT的适配需要解决资源缺口。原始MelBERT依赖WordNet的第一义项释义来提供每个Token的基本意义。没有类似的开放中文资源。因此,我们从《现代汉语词典》第七版(MCD7)构建了一个基本意义资源,包含74,823个条目,其可解析的基本意义被编码为1024维向量,覆盖了PSU CMC词汇的71.51%。该资源本身即为本文的贡献之一;发布的构件(嵌入、映射、管道)许可用于研究用途,而原始的受版权保护的释义文本则不重新分发。

在五个固定种子下,我们评估的最强配置是MelBERT MIP-only(即去除SPV通道的MelBERT),测试正向F1得分为0.7281±0.0050。这略微高于完整三通道MelBERT(0.7270±0.0069)并明显高于纯RoBERTa微调(0.7142±0.0121)。带有QLoRA的Qwen3.5-9B落后于编码器基线约11个绝对F1点(0.6157±0.0113),差距主要集中在召回率上,并在小说语体中被放大。

除了 headline numbers 之外,还有三个值得关注的发现。首先,在我们中文设置中,MelBERT的SPV通道并未贡献可靠的正向信号:MIP-only消融测试不仅具有更高的平均F1,而且种子方差明显低于完整配置。其次,Qwen的滞后是非对称的:精确率与编码器基线相当,而召回率则低得多,这种模式与生成式输出施加的离散承诺以及低秩适配对于细粒度Token级信号能力的有限性一致。第三,几种Qwen任务表述以定性不同的方式失败——BIO跨度标记在主要涉及单Token的中文隐喻上崩溃,结构化生成在监督Token截断下崩溃——这些失败反映了格式设计而非模型容量。

本文的贡献包括:

1. 针对PSU CMC的Token级隐喻识别的可复现多架构基线,涵盖四个配置的五个种子运行,并完全发布分割、代码及每个种子的输出。
2. 源自MCD7的中文MIP基本意义资源,首次实现了中文中的MelBERT风格词汇融合。
3. 关于中文隐喻识别的经验发现,包括出乎意料的竞争性MelBERT MIP-only消融结果、QLoRA适配生成式LLM偏向精确率的不对称性,以及生成式任务表述对格式设计的敏感性。

本文的其余部分组织如下。第2节将这项工作置于隐喻识别文献的背景下。第3节描述数据集、MCD7基本意义资源、模型架构和实验协议。第4节展示结果并分析关键发现。第5节讨论局限性和未来方向,第6节总结。

## 2 相关工作

我们沿三个轴线定位我们的工作:MIPVU标注框架及其中文适配(§2.1)、隐喻识别的计算方法(§2.2)以及基本意义表示的词汇资源(§2.3)。

### 2.1 MIPVU与Token级隐喻资源

隐喻识别程序(MIP)由Pragglejaz Group(Pragglejaz Group, 2007 (https://arxiv.org/html/2605.07170#bib.bib11))引入,作为一种用于在连续文本中标记隐喻相关词的可复现标注者间协议。Steen等人(2010 (https://arxiv.org/html/2605.07170#bib.bib3))将其扩展为MIPVU,增加了对间接隐喻、直接隐喻和边缘情况的明确处理,并应用于构建VU Amsterdam隐喻语料库,这是典型的英语MIPVU标注基准。对于中文,Lu和Wang(2017 (https://arxiv.org/html/2605.07170#bib.bib1))将MIPVU适配到普通话,并通过从兰卡斯特普通话语料库(Lancaster Corpus of Mandarin Chinese)(McEnery and Xiao, 2004 (https://arxiv.org/html/2605.07170#bib.bib2))中采样文档构建了PSU中文隐喻语料库(PSU CMC);PSU CMC即为本研究所使用的语料库。

其他中文隐喻语料库也已发布,但它们针对不同的任务和标注方案。CMC(Li等人, 2023 (https://arxiv.org/html/2605.07170#bib.bib9))提供句子级隐喻标签,且正类偏差严重(约91%为正类),使其成为一个隐喻丰富的分类基准,而非代表性的连续文本识别基准。CMDAG(Shao等人, 2024 (https://arxiv.org/html/2605.07170#bib.bib10))使用理由(rationales)标注隐喻以用于隐喻生成。两者均不与MIPVU在自然分布文本上的Token级识别任务直接对齐,因此本文不评估跨语料库迁移。

Wang等人(2019)在多语言MIPVU卷的一章中专门针对中文适配了MIPVU协议(Wang等人, 2019 (https://arxiv.org/html/2605.07170#bib.bib18); Nacey等人, 2019 (https://arxiv.org/html/2605.07170#bib.bib17)),记录了包括分词歧义、语法化介词和复合词内部隐喻在内的挑战。他们的适配协议定义了中文特有的隐喻标志(MFlag)词——源前标记词(像、好像、如、如同、犹如、好比)和源后标记词(一样、似的、般)——这些词信号直接隐喻,但本身在PSU CMC中不被标注为与隐喻相关。

### 2.2 隐喻识别方法

Token级隐喻识别的计算方法经历了三个重叠的浪潮。序列标记神经模型,从biLSTM-CRF和基于ELMo的架构开始(Mao等人, 2019 (https://arxiv.org/html/2605.07170#bib.bib12)),将隐喻识别视为标准标记任务,是在预训练Transformer编码器广泛使用之前的主导范式。BERT(Devlin等人, 2019 (https://arxiv.org/html/2605.07170#bib.bib15))和RoBERTa(Liu等人, 2019 (https://arxiv.org/html/2605.07170#bib.bib16))的引入重塑了该领域:DeepMet(Su等人, 2020 (https://arxiv.org/html/2605.07170#bib.bib13))使用带有语言特征的RoBERTa阅读理解表述赢得了2020年VUA隐喻检测共享任务;IlliniMet(Gong等人, 2020 (https://arxiv.org/html/2605.07170#bib.bib14))将RoBERTa与WordNet、VerbNet、词性(POS)和具体性特征相结合。MelBERT(Choi等人, 2021 (https://arxiv.org/html/2605.07170#bib.bib5))通过将两个隐喻理论归纳偏差(MIP和SPV)直接编码到其架构中,偏离了这种“RoBERTa加特征”的范式。MelBERT仍然是我们所适配的最强的已发表BERT家族方法;其对基本意义资源的依赖促使我们构建MCD7。

第三波浪潮——指令微调的大型语言模型——更为近期,且在Token级隐喻识别方面尚未定型。生成式LLM已被应用于包括明喻识别、隐喻生成和隐喻解释在内的比喻语言任务,但Token级MIPVU识别提出了结构性挑战:模型必须在没有校准概率头的情况下,为每个Token承诺一个离散的隐喻标签,这与编码器分类器不同。几位作者已经探索了提示工程、多阶段提示和任务变体来解决这种不匹配。我们的Qwen3.5-9B与QLoRA实验为中文环境下的这一工作线做出了贡献,此前尚未在此环境中系统比较与MIPVU编码器基线的性能。

具体到中文,Zhang等人(2021)提出了SaGE,这是一种结合ELECTRA模型的语法感知图卷积网络(GCN),在CCL2018中文隐喻评估数据集上达到了85.22%的宏F1(Zhang等人, 2021 (https://arxiv.org/html/2605.07170#bib.bib19))。然而,CCL2018是一个句子级三分类任务(动词隐喻/名词隐喻/字面义),与PSU CMC在MIPVU下的Token级二元识别根本不同。 prior work 尚未在PSU CMC上报告编码器微调、MelBERT风格词汇融合或系统性的LLM比较。

在LLM提示范式中,Huang和Liu(2026)在arXiv预印本中报告了基于GPT-4的可解释MIPVU规则脚本框架在PSU CMC上的应用(Huang and Liu, 2026 (https://arxiv.org/html/2605.07170#bib.bib20))。Fuoli等人(2025)系统比较了英语隐喻识别中的提示工程、检索增强生成(RAG)和微调,并报告微调设置取得了最佳性能(Fuoli等人, 2025 (https://arxiv.org/html/2605.07170#bib.bib21))。我们的工作将这种提示与微调的比较扩展到中文MIPVU环境,此外我们还包含了LLM文献中未与之比较的编码器基线。

### 2.3 基本意义的词汇资源

MelBERT风格的词汇融合需要每个Token的基本意义表示。对于英语,这一角色由WordNet第一义项释义承担,它们是开放许可且计算可访问的。对于中文,词汇资源情况异质:HowNet、中文WordNet和BCC已被用于各种中文NLP任务,但每种作为MelBERT基质都有局限性——HowNet的义原表示与MIPVU的基本意义概念不匹配,中文WordNet的覆盖度不如其英语对应物稀疏,而BCC是语料库而非词典。因此,我们直接从现代中文最广泛引用的权威参考词典MCD7构建基本意义资源,并作为本工作的一部分发布完整的提取和编码管道。

## 3 方法

本节描述评估语料库及其分割协议(§3.1–3.2)、我们为MelBERT适配构建的基本意义资源(§3.3)、三种比较的模型配置(§3.4)以及共享的训练和评估协议(§3.5)。

### 3.1 PSU中文隐喻语料库

PSU中文隐喻语料库(PSU CMC)(Lu and Wang, 2017 (https://arxiv.org/html/2605.07170#bib.bib1))是一个多语体的中文语料库,遵循隐喻识别程序VU(MIPVU)(Steen等人, 2010 (https://arxiv.org/html/2605.07170#bib.bib3))标注了Token级隐喻标签。文本采样自兰卡斯特普通话语料库(Lancaster Corpus of Mandarin Chinese, LCMC)(McEnery and Xiao, 2004 (https://arxiv.org/html/2605.07170#bib.bib2)),这是一个一百万词的书面普通话平衡语料库,Lu和Wang(2017 (https://arxiv.org/html/2605.07170#bib.bib1))从中抽取了75篇文档,覆盖三个语体:学术散文、小说和新闻。

每个词汇单元被分配一个二元隐喻标志基

相似文章

CFMS:面向可解释细粒度中文多模态讽刺检测基准

arXiv cs.CL

北京大学研究人员提出了CFMS,这是首个细粒度中文多模态讽刺检测基准,包含2,796个图像-文本对和三级标注框架(讽刺识别、目标识别、解释生成),以及一种新颖的强化学习增强上下文学习方法(PGDS),该方法显著优于现有基线。

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。

tencent/HY-Embodied-0.5

Hugging Face Models Trending

腾讯发布了HY-Embodied-0.5,这是一套为具身AI智能体设计的基础模型套件,采用混合变换器(MoT)架构,提供高效的2B和强大的32B变体,用于真实世界的机器人控制和时空推理。

评估大语言模型在社交媒体分析中的能力:多任务探索

arXiv cs.CL

犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。