以英语为中心的AI正在合并不相关的社群并扭曲身份认同
摘要
文章批评了AI系统(尤其是Grokipedia和AI搜索)如何通过以英语为中心的转写和有偏见的训练数据,合并不相关的社群,从而延续错误。文章强调了通过简化英语表述和重复的错误信息抹去文化差异的系统性问题。
我一直在注意到AI生成的知识系统,特别是Grokipedia,甚至普通的AI搜索回答中存在的严重问题。不同的社群、身份认同和历史群体有时仅仅因为其名称在英语中发音相似而被合并在一起。许多这类错误最初是由人类引起的。有人做出错误假设,混淆两个群体,或者在线上写出过于简化的解释。然后这个错误被复制到各个网站,并被其他人重复,直到看起来可信。之后,AI系统从训练数据中吸收了这些错误,并开始以权威的姿态大规模重复。更深层的问题是,许多AI系统严重依赖英语语言资料和英语转写,即使讨论的是非英语起源的文化和历史也是如此。但英文字母无法完全表示其他语言的许多发音。一旦名称被扁平化为英语拼写,原本不同的词语可能会突然显得相关,即使它们在原始语言中完全不同。更糟糕的是,即使你直接向AI系统询问这些话题,它们往往仍主要搜索英语内容,而不是检查能提供正确语境和区分的原始语言资料。因此,AI不断加强扭曲的联系,而不是纠正它们。最终,两个不相关的群体通过网站、AI回答、维基百科页面和Grokipedia文章相互关联,错误仅仅因为到处重复而显得权威。这不仅仅是关于幻觉。这是关于数字系统如何通过简化、转写、重复和继承的人类错误逐渐抹去文化之间的区别。
相似文章
懂的都懂(但AI不懂):自动内容审核未能捕捉社群对去污名化用语的多元态度
# 懂的都懂(但AI不懂):自动内容审核未能捕捉社群对去污名化用语的多元态度 来源:[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国 Rebecca Pattichis 独立研究员 Alb
AI 垃圾内容正在扼杀在线社区
文章认为,在 GitHub 和博客等平台上泛滥的低质量 AI 生成内容(即“AI 垃圾内容”)正在降低在线技术社区的价值。
AI垃圾内容正在成为一场溯源危机,而不仅仅是内容质量的问题
本文认为,AI生成内容(垃圾内容)的大量涌现正引发一场溯源危机,信息的来源和可靠性受到破坏,文中以自动外联误导向和虚假互动等例子加以说明。
智能体购物,重新定义智能,图片文字优化,高参与度意味着对齐更差
吴恩达讨论美国政策如何促使盟友转向主权AI和开源模型,并以DeepSeek、Qwen和K2 Think为例。他认为开源AI可以帮助各国减少对美国技术的依赖。
最大的AI风险可能不是超级智能,而是优化的误解
文章认为,主要的AI风险可能不是超级智能,而是那些优化了有缺陷、不完整的现实表征的系统,从而导致制度漂移、自动误分类和隐蔽的治理失败。