llm-bias

标签

Cards List
#llm-bias

社会科学中的AI编码智能体:方法论多样、经验一致、解释脆弱

arXiv cs.CL · 4天前 缓存

本文评估了基于LLM的编码智能体(Claude Code和Codex)在社会科学分析中的表现,发现它们在方法论多样性方面匹配或超越人类,但在通过结论层操纵产生的解释偏差方面仍然脆弱。

0 人收藏 0 人点赞
#llm-bias

有人注意到LLM的语言偏见吗?

Reddit r/artificial · 2026-06-07

作者观察到LLMs根据语言表现出教派偏见(英语偏向新教,西班牙语/法语/葡萄牙语偏向天主教),并介绍了一款名为Biblians的免费圣经学习应用。

0 人收藏 0 人点赞
#llm-bias

话题作为社会人口特征的代理:对话上下文如何影响大语言模型回答

arXiv cs.CL · 2026-06-03 缓存

本文研究了大语言模型如何因对话上下文而产生不同结果,发现话题而非明确的用户人口特征是导致高风险场景(如薪资建议)中差异的主要驱动因素。

0 人收藏 0 人点赞
#llm-bias

我分析了25,500次LLM简历筛选来测量招聘偏见,结果令人警醒。

Reddit r/artificial · 2026-06-01

一项分析10个模型共25,500次LLM简历评估的研究发现,由“沉默偏见”驱动的偏见率高达45%,模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异,其中Claude、Mistral-Large和Llama 4最为稳定,而Qwen和较早期的Gemini模型则波动较大。

0 人收藏 0 人点赞
#llm-bias

GPT 猜测 1 到 100 之间的数字

Hacker News Top · 2026-05-25 缓存

本文介绍了一项实验,要求 GPT-4.1 在 1 到 100 之间随机选择一个数字,重复 10,000 次,然后分析结果分布与均匀基线相比是否存在偏差。

0 人收藏 0 人点赞
#llm-bias

AI系统是否无意中过度强化了大品牌?

Reddit r/AI_Agents · 2026-05-25

关于AI语言模型可能不成比例地推荐知名品牌的讨论,这可能使小公司在AI搜索中更难被发现。

0 人收藏 0 人点赞
#llm-bias

偏见与推理机制:解读链式思维提示对大型语言模型中性别偏见的影响

arXiv cs.CL · 2026-05-21 缓存

本文研究了链式思维提示对大型语言模型中性别偏见的影响,发现它并不能持续减少偏见,而且表面上的改进源于浅层服从而非真正的理解。

0 人收藏 0 人点赞
#llm-bias

人为不容忍:临床文档中的污名化语言扭曲大语言模型决策

arXiv cs.CL · 2026-05-19 缓存

这项研究表明,大语言模型会继承并放大临床笔记中污名化语言带来的偏见,导致患者管理趋于保守,且当前的缓解策略效果有限。

0 人收藏 0 人点赞
#llm-bias

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers · 2026-05-11 缓存

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

0 人收藏 0 人点赞
#llm-bias

AI 安全的 geopolitics:区域大语言模型偏差的因果分析

arXiv cs.AI · 2026-05-08 缓存

本文引入了一个概率图模型框架,以因果方式审核大语言模型(LLM)的安全机制,揭示出由于忽视了语境的毒性,标准的观测指标高估了人口统计学偏差。

0 人收藏 0 人点赞
#llm-bias

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL · 2026-04-20 缓存

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

0 人收藏 0 人点赞
#llm-bias

默认极化:LLM 内容策展中的推荐偏差审计

arXiv cs.CL · 2026-04-20 缓存

本文对 OpenAI、Anthropic 和 Google 的基于 LLM 的内容策展推荐偏差进行了大规模审计,使用了来自 Twitter/X、Bluesky 和 Reddit 数据的 540,000 次模拟选择。研究发现 LLM 系统性地放大极化现象,在毒性处理方面表现出不同的权衡,并显示出显著的政治倾向偏差,倾向于左倾作者,尽管数据集中右倾作者占多数。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈