IdiomX: 一个用于习语理解、检索和释义的多语言基准

arXiv cs.CL 2026/06/03 04:00 论文

摘要

IdiomX是一个大规模多语言基准数据集，用于习语理解、检索和释义，包含英语、阿拉伯语和法语超过19万个示例，设有四项任务来评估语言模型对习语表达的处理能力。

arXiv:2606.02584v1 Announce Type: new 摘要：习语表达因其含义往往是非组合性的、依赖上下文的且难以跨语言对齐，一直对自然语言处理构成持续挑战。现有的习语资源在规模、语境多样性或多语言覆盖方面通常有限，限制了其对现代语言模型的实用性。我们提出了IdiomX，一个用于习语理解、检索和释义的大规模多语言基准数据集，通过一个可复现的多阶段流水线构建，该流水线结合了词汇资源提取、大规模标准化、受控的大语言模型增强和结构化验证。最终数据集包含超过19万个上下文示例，涵盖12,000多个习语，具有对齐的英语、阿拉伯语和法语语义表示、习语和字面用法标签以及丰富的语言元数据。基于该资源，我们定义了一个统一的四项任务基准，涵盖习语检测、上下文到习语检索、阿拉伯语到英语习语检索以及习语释义，将评估从比喻识别扩展到语义基础和可解释的意义检索。实验表明，上下文Transformer模型显著改善了习语检测，而混合检索和重排序架构则显著增强了单语和跨语言习语检索。结果进一步表明，习语释义可以有效地建模为语义检索任务，从而引入可解释性作为补充基准维度。总体而言，IdiomX为研究习语语言从检测到检索和语义解释的进程提供了一个可扩展的基准，并提供了一个可扩展到其他语言和比喻推理任务的模块化框架。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:35

# IdiomX：面向习语理解、检索与释义的多语言基准
来源：https://arxiv.org/abs/2606.02584
查看PDF (https://arxiv.org/pdf/2606.02584)

> 摘要：习语表达因含义常具非组合性、上下文依赖性以及跨语言对齐困难，始终是自然语言处理领域的一大挑战。现有习语资源在规模、上下文多样性或多语言覆盖方面往往受限，从而限制了其对现代语言模型的实用性。我们提出了IdiomX——一个大规模多语言习语理解、检索与释义基准。该基准通过可复现的多阶段流水线构建而成，融合了词汇资源提取、大规模标准化、受控的大语言模型增强以及结构化验证。最终数据集涵盖超过19万个带有上下文的示例，涉及1.2万余条习语，带有对齐的英语、阿拉伯语和法语语义表示，习语性与字面性用法标签，以及丰富的语言元数据。基于这一资源，我们定义了一个统一的四项任务基准，涵盖习语检测、上下文到习语的检索、阿拉伯语到英语的习语检索以及习语释义，将评估从比喻性识别拓展至语义接地与可解释的含义检索。实验表明，上下文Transformer模型显著提升了习语检测性能，而混合检索与重排序架构则有效增强了单语与跨语言习语检索。结果进一步证明，习语释义可被建模为语义检索任务，从而将可解释性作为基准的一个互补维度。总体而言，IdiomX为研究从检测到检索再到语义释义的习语语言提供了可扩展的基准，并提供了一个可扩展至其他语言及比喻推理任务的模块化框架。

## 提交历史

来自：Ayman Sharara先生 [查看邮件](https://arxiv.org/show-email/8e21f2d7/2606.02584) **\[v1\]** 2026年4月25日星期六 19:54:34 UTC (1,016 KB)

IdiomX: 一个用于习语理解、检索和释义的多语言基准

相似文章

IdioLink：在习语与字面表达间检索超越字词的意义

G-IdiomAlign：基于释义的跨语言习语对齐基准

跨语言习语表达的概念网络：一种基于特征的图方法

MMed-Bench-IR：一个用于多语言医学信息检索的异构基准

Almieyar-Oryx-BloomBench：一种用于认知驱动评估视觉语言模型的双语多模态基准

提交意见反馈