标签
本文利用塞尔维亚双文制作为受控测试平台,探究稀疏自编码器特征的自动生成标签是否跨语言和文字泛化。研究发现,尽管特征集在不同语言间存在显著重叠,但标签通常未能追踪非英语输入中的同一概念,尤其是在代表性较弱的文字中。
本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。
XLGoBench 引入了一个合成算法任务基准,用于检测大语言模型中的跨语言技能差距,并在多个先进模型中展示了持续的差距。
本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。
本文探讨了多语言大语言模型中内部表示的跨语言迁移,用于比喻语言生成,表明在一种语言中学习到的激活方向可以有效引导其他语言的生成。
本文重新审视了LLM中的多语言推理差距,发现在可比较的监督条件下,该差距比先前报告的要小。本文引入了Layer Swap,它将来自英语推理专家的中间层权重转移到母语专家,几乎消除了这一差距,同时保留了母语链式思维。
本文引入了一个使用两种程序生成语言的体外框架,用于研究语言模型中的跨语言泛化,发现分词对可复用子结构的保留能力对于跨语言能力迁移比词汇相似性或数据平衡更为关键。
本文介绍了CroCo,一种基于自生成响应的跨语言对比偏好调优方法,表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序,在无需特定语言标注的情况下,提升模型在14种语言上的性能。
GPT-SoVITS 是一款开源 AI 语音克隆工具,支持零样本(5秒声音)和少样本(1分钟训练)高保真声音克隆,跨语言推理,并自带完整 WebUI 工具链,在 GitHub 上已获 57.8k 星,成为语音克隆领域的领先开源项目。
介绍了HiMed,一个印地语推理医学语料库和基准套件,以及HiMed-8B,一个采用衰减脚手架奖励的印地语形式医学推理大语言模型,展示了印地语医学推理能力的提升和英印准确率差距的缩小。
本文首次进行了系统的跨语言、多模态红队研究,比较了四种前沿多模态大语言模型在美国英语和墨西哥西班牙语下的越狱漏洞,揭示了语言并不会均匀地放大漏洞,并且安全排名在不同语言中并不保持一致。
SemBridge是一种新颖的嵌入初始化方法,利用多语言桥接模型建立源词汇和目标词汇之间的语义对齐,从而提升跨语言稀疏编码器的适配能力和多语言检索性能。
网易有道开源了子曰4大模型,27B参数,数理性能达到SOTA;其语音功能支持3秒跨语言声音克隆,14种语言且无口音问题,同时开源了全场景智能体龙虾。
本文提出一个自监督框架,利用多语言自一致性和自我批评机制在不同语言间迁移文化知识,通过从本地语言表征中揭示潜在文化知识,在BLEnD基准测试的英语查询中平均提升5.03%。
本文研究了大型语言模型(LLMs)跨语言解释中合理性与忠实性之间的权衡,发现以英语为枢轴的解释在跨度上与人类理由具有更高的一致性,但与原生语言解释相比,其因果忠实性有所降低。
本文引入一个多组项目反应理论框架,以解耦非英语语言中安全退化背后的因素,揭示安全性主要是一维的,且低资源语言会产生更多不确定的响应。
本文提出了两个新指标——知识可分性得分(KSS)和知识持久性得分(KPS)——用于评估大语言模型在多语言机器遗忘中的跨语言信息删除,弥补了以往单语言评估协议的不足。
本文引入了上下文对齐对比回归(Context-Aligned Contrastive Regression),通过解决语言学习数据集中的跨语言对齐和等级结构挑战,来提升词汇难度预测的效果。
MLAIRE 是一种多语言语言感知信息检索评估协议,它将语义检索准确性与查询语言偏好分离,以更好地评估跨混合语言语料库的检索效用。