IdiomX: 一个用于习语理解、检索和释义的多语言基准

arXiv cs.CL 论文

摘要

IdiomX是一个大规模多语言基准数据集,用于习语理解、检索和释义,包含英语、阿拉伯语和法语超过19万个示例,设有四项任务来评估语言模型对习语表达的处理能力。

arXiv:2606.02584v1 Announce Type: new 摘要:习语表达因其含义往往是非组合性的、依赖上下文的且难以跨语言对齐,一直对自然语言处理构成持续挑战。现有的习语资源在规模、语境多样性或多语言覆盖方面通常有限,限制了其对现代语言模型的实用性。我们提出了IdiomX,一个用于习语理解、检索和释义的大规模多语言基准数据集,通过一个可复现的多阶段流水线构建,该流水线结合了词汇资源提取、大规模标准化、受控的大语言模型增强和结构化验证。最终数据集包含超过19万个上下文示例,涵盖12,000多个习语,具有对齐的英语、阿拉伯语和法语语义表示、习语和字面用法标签以及丰富的语言元数据。基于该资源,我们定义了一个统一的四项任务基准,涵盖习语检测、上下文到习语检索、阿拉伯语到英语习语检索以及习语释义,将评估从比喻识别扩展到语义基础和可解释的意义检索。实验表明,上下文Transformer模型显著改善了习语检测,而混合检索和重排序架构则显著增强了单语和跨语言习语检索。结果进一步表明,习语释义可以有效地建模为语义检索任务,从而引入可解释性作为补充基准维度。总体而言,IdiomX为研究习语语言从检测到检索和语义解释的进程提供了一个可扩展的基准,并提供了一个可扩展到其他语言和比喻推理任务的模块化框架。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:35

# IdiomX:面向习语理解、检索与释义的多语言基准
来源:https://arxiv.org/abs/2606.02584
查看PDF (https://arxiv.org/pdf/2606.02584)

> 摘要:习语表达因含义常具非组合性、上下文依赖性以及跨语言对齐困难,始终是自然语言处理领域的一大挑战。现有习语资源在规模、上下文多样性或多语言覆盖方面往往受限,从而限制了其对现代语言模型的实用性。我们提出了IdiomX——一个大规模多语言习语理解、检索与释义基准。该基准通过可复现的多阶段流水线构建而成,融合了词汇资源提取、大规模标准化、受控的大语言模型增强以及结构化验证。最终数据集涵盖超过19万个带有上下文的示例,涉及1.2万余条习语,带有对齐的英语、阿拉伯语和法语语义表示,习语性与字面性用法标签,以及丰富的语言元数据。基于这一资源,我们定义了一个统一的四项任务基准,涵盖习语检测、上下文到习语的检索、阿拉伯语到英语的习语检索以及习语释义,将评估从比喻性识别拓展至语义接地与可解释的含义检索。实验表明,上下文Transformer模型显著提升了习语检测性能,而混合检索与重排序架构则有效增强了单语与跨语言习语检索。结果进一步证明,习语释义可被建模为语义检索任务,从而将可解释性作为基准的一个互补维度。总体而言,IdiomX为研究从检测到检索再到语义释义的习语语言提供了可扩展的基准,并提供了一个可扩展至其他语言及比喻推理任务的模块化框架。

## 提交历史

来自:Ayman Sharara先生 [查看邮件](https://arxiv.org/show-email/8e21f2d7/2606.02584) **\[v1\]** 2026年4月25日星期六 19:54:34 UTC (1,016 KB)

相似文章

IdioLink:在习语与字面表达间检索超越字词的意义

arXiv cs.CL

介绍了IdioLink,一个包含10,700篇文档和2,140个查询的检索基准,覆盖107个习语,测试模型是否能够将习语表达与概念上等价的字面或释义含义联系起来。评估显示,当前的嵌入模型在此任务上表现不佳,突显了习语感知语义检索方面的空白。

MathNet:一个面向数学推理与检索的全球多模态基准

Hugging Face Daily Papers

# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。

x1:跨语言与文化自适应推理学习

arXiv cs.CL

研究人员推出了 x1,这是一类推理模型家族,能够针对每个具体实例自适应地选择最优语言进行推理,证实了在多语言及文化相关任务中,语言选择会对推理质量产生影响。

IntentGrasp:意图理解的综合基准测试

Hugging Face Daily Papers

本文引入了 IntentGrasp,这是一个用于评估大型语言模型意图理解能力的综合基准测试,揭示了 20 个测试模型表现不佳的问题。论文提出了有意图微调(Intentional Fine-Tuning, IFT)作为解决方案,该方法显著提升了模型性能,并展现出强大的跨领域泛化能力。