有人注意到LLM的语言偏见吗?

Reddit r/artificial 新闻

摘要

作者观察到LLMs根据语言表现出教派偏见(英语偏向新教,西班牙语/法语/葡萄牙语偏向天主教),并介绍了一款名为Biblians的免费圣经学习应用。

我一直在用LLMs做实验,想看看它们如何处理像《圣经》这样高度交叉引用的文本。标准模型常常编造经文或丢失历史背景。为了解决这个问题,我开发了一款免费应用叫 **Biblians**(无广告,无付费墙)。我专门为那些有疑问却不敢当面问的人,或者只是想一键解释某节经文的人打造了它。在测试过程中,我发现了一个有趣的教派偏见,它仍然存在,并且完全根据你使用的语言而变化: * **在英语中:** 偏向新教。它赞扬路德,例如说:“马丁·路德寻求将教会带回上帝话语的真理。” * **在西班牙语、法语或葡萄牙语中:** 偏向天主教。它谴责路德的行为,说道:“...trajo confusión...” (带来了混乱...)。 有没有人注意到训练数据是如何根据提示语言来彻底改变核心偏见的?我希望这个社区能测试一下这个应用,寻找其他语言偏见,或者干脆尝试打破AI的逻辑。你可以在这里体验:[https://play.google.com/store/apps/details?id=com.biblians.app](https://play.google.com/store/apps/details?id=com.biblians.app) 告诉我你得到了什么奇怪的输出!
查看原文

相似文章

迈向超越英语中心化开发的大语言模型

arXiv cs.CL

本文证明了大语言模型严重偏向英语,并表明持续预训练在将模型适配到其他语言(尤其是文化理解方面)时,并不比从头训练更具成本优势。

为了内容而内容

Armin Ronacher

作者探讨了LLM如何影响编码和日常语言中的用词,发现LLM偏好的词汇在编程会话和Google Trends中出现的频率均有所增加,这引发了人们对人类开始采用LLM写作风格的担忧。