code-switching

标签

Cards List
#code-switching

BOUTEF:北非假新闻的多语言语料库——语言作为武器

arXiv cs.CL · 2天前 缓存

本文介绍了BOUTEF,一个用于研究阿尔及利亚和突尼斯假新闻的大规模多语言语料库,涵盖阿拉伯方言、Arabizi、法语、英语及语码转换。该语料库包含对语言策略和互动动态的实证分析。

0 人收藏 0 人点赞
#code-switching

面向中英文混合语音识别的音频大语言模型直接偏好优化

arXiv cs.CL · 2026-05-26 缓存

本文应用直接偏好优化(DPO)来对齐音频大语言模型,以转录中英文混合语音,在分布内实现了高达89.6%的MER降低,在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。

0 人收藏 0 人点赞
#code-switching

商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语

arXiv cs.CL · 2026-05-20 缓存

本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。

0 人收藏 0 人点赞
#code-switching

MUSCAT:多语言科学对话基准

arXiv cs.CL · 2026-04-20 缓存

MUSCAT是一个新的多语言科学对话基准数据集,用于评估ASR系统在具有挑战性的多语言场景中的表现,包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论,结果表明当前的最先进系统在应对这些多语言挑战时存在困难。

0 人收藏 0 人点赞
#code-switching

多语言思维,而非更难的思维:教授推理模型代码切换的数据高效框架

arXiv cs.CL · 2026-04-20 缓存

本文介绍了一个数据高效的微调框架,用于教授推理模型有效地进行代码切换(混合使用多种语言),证明了战略性的代码切换可以提升低资源语言的推理能力。该工作分析了大型语言模型在不同语言、任务和领域中的代码切换行为,并开发了促进有益代码切换模式的干预措施。

0 人收藏 0 人点赞
#code-switching

语码转换信息检索:基准、分析与现有检索器的局限

Hugging Face Daily Papers · 2026-04-19 缓存

研究者发布 CSR-L 与 CS-MTEB 基准,发现语码转换查询使 IR 系统性能下降高达 27%,并揭示嵌入空间 divergence 是当前多语言技术无法修复的根本原因。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈