cross-lingual

标签

Cards List
#cross-lingual

自动解释标签的泛化程度:跨语言、文字和改写的一项受控研究

arXiv cs.CL · 2天前 缓存

本文利用塞尔维亚双文制作为受控测试平台,探究稀疏自编码器特征的自动生成标签是否跨语言和文字泛化。研究发现,尽管特征集在不同语言间存在显著重叠,但标签通常未能追踪非英语输入中的同一概念,尤其是在代表性较弱的文字中。

0 人收藏 0 人点赞
#cross-lingual

将LLM性别偏见锚定于人类基线:一项跨语言审计

arXiv cs.CL · 3天前 缓存

本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。

0 人收藏 0 人点赞
#cross-lingual

XLGoBench: 通过算法任务检测跨语言技能差距

arXiv cs.CL · 3天前 缓存

XLGoBench 引入了一个合成算法任务基准,用于检测大语言模型中的跨语言技能差距,并在多个先进模型中展示了持续的差距。

0 人收藏 0 人点赞
#cross-lingual

当英语改写本地知识:大语言模型中的全球叙事主导

arXiv cs.CL · 3天前 缓存

本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。

0 人收藏 0 人点赞
#cross-lingual

跨语言引导的比喻语言生成

arXiv cs.CL · 3天前 缓存

本文探讨了多语言大语言模型中内部表示的跨语言迁移,用于比喻语言生成,表明在一种语言中学习到的激活方向可以有效引导其他语言的生成。

0 人收藏 0 人点赞
#cross-lingual

使用Layer Swap重新思考多语言推理差距

arXiv cs.CL · 2026-05-27 缓存

本文重新审视了LLM中的多语言推理差距,发现在可比较的监督条件下,该差距比先前报告的要小。本文引入了Layer Swap,它将来自英语推理专家的中间层权重转移到母语专家,几乎消除了这一差距,同时保留了母语链式思维。

0 人收藏 0 人点赞
#cross-lingual

语言模型中跨语言泛化的体外研究

arXiv cs.CL · 2026-05-27 缓存

本文引入了一个使用两种程序生成语言的体外框架,用于研究语言模型中的跨语言泛化,发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。

0 人收藏 0 人点赞
#cross-lingual

CroCo:基于自生成的跨语言对比偏好调优

arXiv cs.CL · 2026-05-27 缓存

本文介绍了CroCo,一种基于自生成响应的跨语言对比偏好调优方法,表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序,在无需特定语言标注的情况下,提升模型在14种语言上的性能。

0 人收藏 0 人点赞
#cross-lingual

@denziideng: 又发现一个AI语音克隆“降维打击”…… 之前分享的 CosyVoice 3秒可克隆,觉得已经够吓人了,结果今天这个更要命,随便录了1分钟自己的声音训练后,它直接把声线、语气、情感、呼吸、停顿全部复刻,简直像本人灵魂附体! 阿里达摩院的 C…

X AI KOLs Timeline · 2026-05-26 缓存

GPT-SoVITS 是一款开源 AI 语音克隆工具,支持零样本(5秒声音)和少样本(1分钟训练)高保真声音克隆,跨语言推理,并自带完整 WebUI 工具链,在 GitHub 上已获 57.8k 星,成为语音克隆领域的领先开源项目。

0 人收藏 0 人点赞
#cross-lingual

HiMed:激励医学大语言模型中的印地语推理

arXiv cs.CL · 2026-05-26 缓存

介绍了HiMed,一个印地语推理医学语料库和基准套件,以及HiMed-8B,一个采用衰减脚手架奖励的印地语形式医学推理大语言模型,展示了印地语医学推理能力的提升和英印准确率差距的缩小。

0 人收藏 0 人点赞
#cross-lingual

利用多语言LLM嵌入发现词汇空缺

arXiv cs.CL · 2026-05-26 缓存

本文提出了一种数据驱动的框架,利用多语言LLM的嵌入来检测语言间的词汇空缺,在韩语-英语对中实现了高准确率。

0 人收藏 0 人点赞
#cross-lingual

相同模型,不同弱点:语言和模态如何重塑前沿多模态大语言模型的越狱攻击面

arXiv cs.CL · 2026-05-25 缓存

本文首次进行了系统的跨语言、多模态红队研究,比较了四种前沿多模态大语言模型在美国英语和墨西哥西班牙语下的越狱漏洞,揭示了语言并不会均匀地放大漏洞,并且安全排名在不同语言中并不保持一致。

0 人收藏 0 人点赞
#cross-lingual

SemBridge:通过多语言语义桥实现稀疏编码器中的语言迁移

Hugging Face Daily Papers · 2026-05-25 缓存

SemBridge是一种新颖的嵌入初始化方法,利用多语言桥接模型建立源词汇和目标词汇之间的语义对齐,从而提升跨语言稀疏编码器的适配能力和多语言检索性能。

0 人收藏 0 人点赞
#cross-lingual

@lxfater: 网易有道开源了子曰4大模型,27B参数内,数理 SOTA 但真正让我觉得有趣的是它那个语音功能!! 克隆个声音不稀奇,ElevenLabs 早能做 但它们都有个通病,跨语种会串口音 拿你的中文声音去说日语,它带着一口中国腔,一听就是外国人…

X AI KOLs Timeline · 2026-05-22 缓存

网易有道开源了子曰4大模型,27B参数,数理性能达到SOTA;其语音功能支持3秒跨语言声音克隆,14种语言且无口音问题,同时开源了全场景智能体龙虾。

0 人收藏 0 人点赞
#cross-lingual

跨语言共识:通过多语言自一致性对齐多语言文化知识

arXiv cs.CL · 2026-05-22 缓存

本文提出一个自监督框架,利用多语言自一致性和自我批评机制在不同语言间迁移文化知识,通过从本地语言表征中揭示潜在文化知识,在BLEnD基准测试的英语查询中平均提升5.03%。

0 人收藏 0 人点赞
#cross-lingual

迷失在解释中:跨语言解释中的合理性与忠实性权衡

arXiv cs.CL · 2026-05-20 缓存

本文研究了大型语言模型(LLMs)跨语言解释中合理性与忠实性之间的权衡,发现以英语为枢轴的解释在跨度上与人类理由具有更高的一致性,但与原生语言解释相比,其因果忠实性有所降低。

0 人收藏 0 人点赞
#cross-lingual

为何安全护栏在不同语言中会退化?

arXiv cs.CL · 2026-05-19 缓存

本文引入一个多组项目反应理论框架,以解耦非英语语言中安全退化背后的因素,揭示安全性主要是一维的,且低资源语言会产生更多不确定的响应。

0 人收藏 0 人点赞
#cross-lingual

知识超越语言:弥合多语言机器遗忘评估中的鸿沟

arXiv cs.CL · 2026-05-15 缓存

本文提出了两个新指标——知识可分性得分(KSS)和知识持久性得分(KPS)——用于评估大语言模型在多语言机器遗忘中的跨语言信息删除,弥补了以往单语言评估协议的不足。

0 人收藏 0 人点赞
#cross-lingual

利用上下文对齐对比学习与岭回归集成提升词汇难度预测

arXiv cs.CL · 2026-05-12 缓存

本文引入了上下文对齐对比回归(Context-Aligned Contrastive Regression),通过解决语言学习数据集中的跨语言对齐和等级结构挑战,来提升词汇难度预测的效果。

0 人收藏 0 人点赞
#cross-lingual

MLAIRE: 多语言语言感知信息检索评估协议

Hugging Face Daily Papers · 2026-05-08 缓存

MLAIRE 是一种多语言语言感知信息检索评估协议,它将语义检索准确性与查询语言偏好分离,以更好地评估跨混合语言语料库的检索效用。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈