bias-detection

#bias-detection

Ghost Annotator：通过共形预测探索内容审核中人类标签变化的框架

arXiv cs.CL ↗ · 2026-06-03 缓存

Ghost Annotator框架结合了共形预测与协同过滤，对内容审核中的LLM行为与人类标签变化进行建模，揭示了大型模型中存在的结构性人口统计偏见。

0 人收藏 0 人点赞

#bias-detection

我分析了25,500次LLM简历筛选来测量招聘偏见，结果令人警醒。

Reddit r/artificial ↗ · 2026-06-01

一项分析10个模型共25,500次LLM简历评估的研究发现，由“沉默偏见”驱动的偏见率高达45%，模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异，其中Claude、Mistral-Large和Llama 4最为稳定，而Qwen和较早期的Gemini模型则波动较大。

0 人收藏 0 人点赞

#bias-detection

GPF-LiveNews：面向大型语言模型中群体条件框架的流式评估协议

arXiv cs.CL ↗ · 2026-05-29 缓存

本文介绍了GPF-LiveNews，这是一种流式评估协议，用于审查大型语言模型如何根据不同人口群体对实时新闻事件进行差异化框架建构，通过42个身份标签和7个提示族测量语义敏感性和情感差异。

0 人收藏 0 人点赞

#bias-detection

公平模型是否进行公平推理？信用决策中程序公平的反事实解释一致性

arXiv cs.LG ↗ · 2026-05-14 缓存

本文引入了反事实解释一致性（CEC）框架，通过对齐个体与其反事实对应物之间的特征归因，检测并缓解结果公平模型中的隐藏程序偏差，并在信用和收入数据集上进行了实验。

0 人收藏 0 人点赞

#bias-detection

代理建模：解读黑盒大模型在医学预测中的隐含知识

arXiv cs.CL ↗ · 2026-04-23 缓存

研究者提出一种代理建模框架，可量化并解释黑盒大模型内部编码的医学知识，同时揭示有效关联与持续的种族偏见。

0 人收藏 0 人点赞

#bias-detection

谁的故事被讲述？生命叙事摘要中的立场性与偏见

arXiv cs.CL ↗ · 2026-04-23 缓存

哥伦比亚与西北大学研究者提出一套流程，揭示大模型在抽象摘要生命故事访谈时对种族与性别存在的偏见，并指出表征伤害风险。

0 人收藏 0 人点赞

#bias-detection

言过其实：量化大语言模型认知-修辞失准的框架

arXiv cs.CL ↗ · 2026-04-23 缓存

提出一套量化框架，揭示 LLM 如何借修辞手段夸大确定性，并发现跨模型的认知-修辞失准共性。

0 人收藏 0 人点赞

#bias-detection

我们能否定位并防止LLM中的刻板印象？

arXiv cs.CL ↗ · 2026-04-23 缓存

arXiv预印本在GPT-2 Small与Llama 3.2中定位编码刻板印象的神经元与注意力头，显示偏见集中在少数神经元子集，但消融它们几乎无法减少带偏文本生成。

0 人收藏 0 人点赞

#bias-detection

找不到地点：揭示多语言 LLM 中的隐式本地与全球偏见

arXiv cs.CL ↗ · 2026-04-22 缓存

Google Research 发布覆盖 12 种语言的 LocQA 数据集，发现多语言大模型在回答含混的地域相关问题时表现出强烈的美国中心与人口基数驱动的地域偏见。

0 人收藏 0 人点赞

#bias-detection

通过幽默调查大模型对身份群体的反事实不公

arXiv cs.CL ↗ · 2026-04-22 缓存

学术研究揭示大模型存在系统性反事实不公：特权者讲的笑话被拒绝率高出67%，且被判定为更恶意，而内容完全相同的笑话若出自边缘群体则待遇相反。

0 人收藏 0 人点赞

#bias-detection

BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL ↗ · 2026-04-21 缓存

# BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集来源：[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要大型语言模型（LLM）正日益被广泛用

0 人收藏 0 人点赞

bias-detection

提交意见反馈