默认极化:LLM 内容策展中的推荐偏差审计
摘要
本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计,使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象,在毒性处理方面表现出不同的权衡,并显示出显著的政治倾向偏差,倾向于左倾作者,尽管数据集中右倾作者占多数。
查看缓存全文
缓存时间: 2026/04/20 08:30
# 默认极化:审计基于LLM的内容策划中的推荐偏见 来源:https://arxiv.org/html/2604.15937 **Christopher Barrie** - 纽约大学社会学系,美国纽约,以及牛津大学社会学系,英国牛津 **Chris A. Bail** - 杜克大学社会学、计算机科学、政治学和公共政策系,美国北卡州达勒姆 **Petter Törnberg** - 阿姆斯特丹大学逻辑、语言和计算研究所(ILLC),荷兰阿姆斯特丹 ###### 摘要 大语言模型(LLMs)越来越多地被用于策划和排序人工创建的内容,但其在这些任务中的偏见的性质和结构仍然知之甚少:哪些偏见在提供商和平台间是稳健的,哪些可以通过提示设计缓解。我们提出了一项受控的模拟研究,在三个主要LLM提供商(OpenAI、Anthropic、Google)上映射内容选择偏见,使用来自Twitter/X、Bluesky和Reddit的真实社交媒体数据集,采用六种提示策略(通用、热门、吸引人、信息量、争议、中立)。通过在54个实验条件下从100条帖子池中进行540,000次模拟的前10名选择,我们发现偏见在其结构性和提示敏感性方面存在显著差异。极化在所有配置中都被放大,毒性处理在以参与度为中心和以信息为中心的提示之间显示出强烈的反转,情感偏见主要是负面的。提供商比较揭示了不同的权衡:GPT-4o Mini在提示间显示最一致的行为;Claude和Gemini在毒性处理中表现出高度适应性;Gemini显示最强的负面情感偏好。在Twitter/X上,作者人口统计可以从个人资料生物推断出来,政治倾向偏见是最清晰的人口统计信号:尽管右倾作者在数据集中形成多数,但左倾作者仍被系统性地过度代表,这种模式在很大程度上在提示间持续存在。 ## 1 介绍 大语言模型(LLMs)越来越多地被用于不仅生成和检索信息,还要对人员和内容做出重大决策:策划和排序人工创建的内容、筛选求职申请、分类医疗案例以及审核在线平台。社交媒体内容策划尤其突出,因为基于LLM的排序决定了大量受众会遇到什么信息。 2025年10月,埃隆·马斯克宣布X(前身为Twitter)将其整个内容排名系统过渡到Grok以处理超过1亿条每日帖子;到2025年11月,Grok已经在对"为您"和"关注"源进行算法排名。大约在同一时间,Instagram推出了一款使用AI总结用户推断兴趣的工具,让用户直接调整其Reels推荐。这一趋势超越了集中式平台:Bluesky是一个基于开放协议的社交网络,明确建立在AI应应服务用户而非平台的原则之上,最近推出了由Claude(Anthropic)驱动的Attie,这是一个具有代理性的源构建工具。正如Bluesky的首席信息官Jay Graber所描述的那样,用户可以简单地描述他们想要的内容,并让个性化源为他们构建。 基于LLM的内容策划位于两个文献充分的偏见来源的交叉点。推荐系统长期以来表现出系统性的公平性问题,从热门度偏见到人口统计特征的接触不平等;LLMs独立地承载从预训练语料库和对齐过程中继承的偏见,在生成、问答和决策任务中表现出来,表明下游应用中的公平性挑战可能反映的是LLM预训练的深层属性,而不是任务特定的设计选择。 基于LLM的排名系统似乎会继承两个偏见来源,但产生偏见的结构仍然知之甚少:哪些在提供商和平台间是稳健的,哪些可以通过提示设计缓解。以前的研究已经开始记录基于LLM的推荐中的公平性违反,但主要集中在电影和电子商务等产品领域,使用单一提供商进行隔离。社交媒体内容策划——其中偏见可能会系统性地影响数十亿用户的信息摄入——在这方面基本上未被研究。此外,没有研究同时比较偏见在提供商、平台和提示策略间如何变化:区分结构性偏见和附带偏见所需的变化,以及评估提示工程是否可以作为缓解工具。 我们的研究通过在三个提供商、三个平台和六种提示变化间评估540,000条建议来解决这些差距。我们调查三个基本问题: **(RQ1)** 基于LLM的内容策划系统中偏见的总体景观是什么,偏见在不同提示策略间如何变化? **(RQ2)** 不同的LLM提供商(OpenAI、Anthropic、Google)在处理内容毒性、极化和情感方面有何不同? **(RQ3)** 敏感人口统计属性(性别、政治倾向、少数群体身份)中的偏见如何在Twitter/X上表现出来,这些偏见的方向是什么? 我们的分析揭示了LLMs如何选择内容的系统性模式。在所有模型和条件中,极化是选择的最强预测因子,放大在所有测试的提供商和提示风格间都存在,包括没有明确参与度目标的提示。毒性处理根据提示目标显示出惊人的反转:模型在参与度提示下容忍或偏好有毒内容,在信息性提示下积极避免它。情感偏见主要是负面的,特别是在以参与度为导向的提示下,Gemini显示最强和最一致的负面偏好。提供商比较揭示了不同的权衡:OpenAI在提示间保持最稳定的配置,而Claude和Gemini在毒性处理中显示更高的适应性。在Twitter/X上,其中作者人口统计可以从个人资料生物推断出来,我们发现稳健的政治倾向偏见:尽管右倾作者形成池多数,左倾作者仍被持续过度代表,这种模式在所有提供商和提示风格间保持。关于性别和少数群体身份的结果较弱,在提供商间不一致,鉴于高未知率(少数群体身份48.4%),更难以解释,应被视为探索性的。 ## 2 相关工作 #### 传统推荐系统中的公平性 成熟的研究体系记录了协同过滤和基于内容的系统中的多种形式的偏见: - **热门度偏见** - 导致热门项目被过度推荐,而长尾内容被低估 - **人口统计特征差异** - 导致某些用户群体的推荐质量系统性更差或接触机会更低 - **反馈循环** - 放大初始偏见 这一文献区分了消费者公平性(用户群体间的公平推荐质量)和生产者公平性(内容创作者的公平接触机会)。缓解策略包括重新排名、校准和对抗性去偏。然而,这一文献主要考察电子商务背景,在基于LLM的系统成为主流之前开发,使其特定的公平性挑战未被充分探索。 #### 用于推荐的LLMs 最近的工作证明LLMs可以执行零样本排名,随着混合架构、对话界面和生成方法的快速演进。这一文献强调技术挑战(幻觉、推理延迟、提示敏感性)和准确性指标而非公平性,主要集中于通过单一提供商隔离检查的电子商务产品推荐。 最近的工作也探索了给用户对基于LLM的源构建的直接控制:BONSAI实现了一个平台不可知的框架,用户在其中用自然语言表达源意图,用Bluesky用户评估。这种有意、用户驱动的LLM策划的公平性含义仍未被研究。 #### 基于LLM的推荐中的公平性 这一交叉点的先驱性工作揭示了系统性的公平性违反。Zhang等人提供了ChatGPT推荐中人口统计特征差异的早期证据,特别是在交叉身份下。Deldjoo和Di Noia介绍了CFairLLM,证明了多个人口统计属性间的消费者公平性问题;Jiang等人检查了生产者公平性,显示LLMs可以强化或放大训练数据偏见。进一步的工作揭示了提示引起的差异、因敏感属性组合变化的公平性违反以及对话推荐中的偏见。最接近我们研究的是Li等人,他们评估了基于ChatGPT的新闻推荐中的公平性,但集中于单一提供商和文章级内容而非社交媒体帖子。 尽管取得了这一进展,三个关键差距仍然存在。首先,**领域差距**:现有评估集中于产品推荐(电影、音乐)或新闻文章而非社交媒体内容,其中公平性含义对公众话语更直接后果。其次,**提供商差距**:工作通常隔离检查单一提供商,缺乏揭示偏见是模型特定还是结构性的系统性多提供商比较。其三,**提示敏感性差距**:没有工作调查偏见在提示策略间如何变化,这对于评估提示工程是否可以作为缓解工具至关重要。我们的研究通过在三个提供商、三个平台和六种提示变化间评估540,000条建议来解决这三个问题。 ## 3 方法 #### 实验设计和数据集 我们在54个实验条件间评估偏见,系统性地改变: 1. **LLM提供商**(OpenAI GPT-4o Mini、Anthropic Claude Sonnet 4.5、Google Gemini 2.0 Flash) 2. **平台**(Twitter/X、Bluesky、Reddit) 3. **提示风格**(通用、热门、吸引人、信息量、争议、中立) 我们使用三个社交媒体数据集:来自Pagan等人的Twitter/X数据、来自Bück-Kaeffer等人的Bluesky数据以及来自Baumgartner等人的Reddit数据。 我们首先每个平台采样5,000条帖子以确定我们的社交媒体帖子池。对于每个实验条件,我们进行100次独立推荐试验,从社交媒体帖子池中随机采样每次试验100条帖子,并要求LLM推荐前10名。这为每个条件产生10,000条帖子的**池**和1,000条**推荐**帖子。采样使用固定种子保证可重现性,在试验间使用替换采样。LLM推荐使用温度0.3。推荐是非个性化的,将模型级偏见与用户特定个性化效应隔离。 #### 提示策略 我们设计六种提示变化以测试推荐目标如何影响偏见模式,仅改变风格特定的头部,同时为帖子列表和任务指令保持相同的结构。六个头部优化以下内容: - **最小框架**(中立:"排序这些帖子") - **广泛吸引**(通用:"最有趣的给一般受众") - **预测病毒性**(热门) - **交互指标**(吸引人:点赞、分享、评论) - **教育价值**(信息量) - **辩论生成**(争议) 重要的是,模型仅接收原始帖子文本:不提供任何元数据,如参与度计数或作者信息。因此,推荐中的任何偏见反映的是在预训练和对齐期间学习的模式,而不是显式使用作者或参与度信号。完整的提示模板在附录A中提供。 #### 特征工程 我们使用跨六个类别的13个特征描述每条帖子:文本指标、情感、风格、极化、毒性和作者人口统计。特征使用规则基方法(风格指标)、建立的NLP库(通过VADER进行情感分析;毒性通过...
相似文章
Polar:评估LLM政治偏见的基准
Polar是一个包含4,026个多选题的基准,用于评估LLM在美国和韩国政治背景下的政治偏见,通过选项级似然度来测量偏见。对38个LLM的实验显示,系统性偏见模式因政治背景、议题类别和呈现语言而异。
定义和评估 LLM 中的政治偏见
OpenAI 推出了一个全面的框架来定义和评估 LLM 中的政治偏见,引入了跨越 5 个偏见轴线、包含 100 个主题的 500 条提示评估。结果显示 GPT-5 模型相比之前的版本实现了 30% 的偏见减少,少于 0.01% 的生产环境中的 ChatGPT 回复存在政治偏见。
AI 安全的 geopolitics:区域大语言模型偏差的因果分析
本文引入了一个概率图模型框架,以因果方式审核大语言模型(LLM)的安全机制,揭示出由于忽视了语境的毒性,标准的观测指标高估了人口统计学偏差。
隔离LLM词汇偏见:一种无需人工筛选的三角测量偏好阶段学习指标
介绍了一种无需人工筛选的指标(Triangulated Preference Shift),用于隔离和量化LLM在偏好学习过程中诱导的词汇偏见,无需手动筛选,覆盖六个模型家族。
主题情感是否影响感知的意识形态?人类与LLM对政治新闻文章标注的比较
本文探讨了主题情感是否对新闻文章中感知到的政治意识形态产生因果影响,比较了来自 AllSides 的人类标注与来自包括 GPT-4o-mini 和 Llama-3.3-70B 在内的 LLM 标注。研究发现,微调后的 GPT-4o-mini 表现出一种虚假的情感-意识形态耦合,而这种耦合在人类判断中并不存在,这凸显了在因果分析中使用 LLM 标注作为代理的风险。