语码转换信息检索：基准、分析与现有检索器的局限

Hugging Face Daily Papers 2026/04/19 00:00 论文

摘要

研究者发布 CSR-L 与 CS-MTEB 基准，发现语码转换查询使 IR 系统性能下降高达 27%，并揭示嵌入空间 divergence 是当前多语言技术无法修复的根本原因。

语码转换是全球交流中普遍存在的语言现象，然而现代信息检索系统仍主要面向单语场景设计与评估。为弥合这一关键断层，我们开展了一项面向语码转换 IR 的全方位研究。首先推出 CSR-L（Code-Switching Retrieval benchmark-Lite），通过人工标注构建数据集，真实还原混合语言查询的自然性。我们在统计、稠密与晚期交互三大范式上的评估显示，语码转换成为性能的根本瓶颈，即便强健的多语言模型也大幅失效。我们证明，失败源于纯文本与语码转换文本在嵌入空间中的显著 divergence。进一步，我们提出覆盖 11 项任务的综合基准 CS-MTEB，观察到性能跌幅最高达 27%。最终，我们证实词汇扩展等常规多语言技术无法彻底弥补这一缺陷。研究结果凸显现有系统的脆弱性，并将语码转换确立为未来 IR 优化的关键前沿。

查看原文

查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - 语码转换信息检索：基准、分析与当前检索器的局限

来源：https://huggingface.co/papers/2604.17632

摘要

语码转换为信息检索系统带来严峻挑战，暴露出性能瓶颈与嵌入空间分歧，而现有的多语言方法无法完全解决。

语码转换（https://huggingface.co/papers?q=Code-switching）是全球交流中普遍存在的语言现象，但现代信息检索（https://huggingface.co/papers?q=information%20retrieval）系统仍主要面向单语场景设计与评估。为弥合这一关键脱节，我们开展了一项聚焦语码转换 IR 的整体研究。我们推出 CSR-L（https://huggingface.co/papers?q=CSR-L）（Code-Switching Retrieval benchmark-Lite），通过人工标注构建数据集，捕捉混合语言查询的真实自然性。在统计、稠密与后期交互三种范式上的评估显示，语码转换成为根本性能瓶颈，即便稳健的多语言模型（https://huggingface.co/papers?q=multilingual%20models）也显著失效。我们发现，失败源于纯文本与语码转换文本在嵌入空间（https://huggingface.co/papers?q=embedding%20space）中的巨大分歧。进一步扩展研究，我们提出 CS-MTEB（https://huggingface.co/papers?q=CS-MTEB），涵盖 11 项多样化任务的综合基准，观察到性能下降高达 27%。最后，我们证明词汇扩展（https://huggingface.co/papers?q=vocabulary%20expansion）等常规多语言技术不足以完全弥补这些缺陷。这些发现凸显当前系统的脆弱性，并将语码转换确立为未来 IR 优化的关键前沿。

查看 arXiv 页面（https://arxiv.org/abs/2604.17632）
查看 PDF（https://arxiv.org/pdf/2604.17632）
GitHub0（https://github.com/paddler2022/Code-Switching-Information-Retrieval）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.17632）

在智能体中获取该论文：

hf papers read 2604.17632

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型链接到本文

在模型 README.md 中引用 arxiv.org/abs/2604.17632，即可在此页面显示链接。

引用本文的数据集 0

暂无数据集链接到本文

在数据集 README.md 中引用 arxiv.org/abs/2604.17632，即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 链接到本文

在 Space README.md 中引用 arxiv.org/abs/2604.17632，即可在此页面显示链接。

包含本文的收藏 0

暂无收藏包含本文

将本文添加到收藏（https://huggingface.co/new-collection），即可在此页面显示链接。

语码转换信息检索：基准、分析与现有检索器的局限

论文页面 - 语码转换信息检索：基准、分析与当前检索器的局限

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

包含本文的收藏 0

相似文章

商业ASR系统在代码切换语音上的基准测试：阿拉伯语、波斯语和德语

超越单语深度研究：使用跨语言BrowseComp-Plus评估智能体与检索器

超越检索：代码搜索的多任务基准与模型

MMed-Bench-IR：一个用于多语言医学信息检索的异构基准

迈向真正多语言ASR：将代码切换ASR泛化到未见过的语言对

提交意见反馈