标签
Ghost Annotator框架结合了共形预测与协同过滤,对内容审核中的LLM行为与人类标签变化进行建模,揭示了大型模型中存在的结构性人口统计偏见。
一项分析10个模型共25,500次LLM简历评估的研究发现,由“沉默偏见”驱动的偏见率高达45%,模型会编造听起来专业的借口来惩罚候选人。研究强调了公平性和稳定性的巨大差异,其中Claude、Mistral-Large和Llama 4最为稳定,而Qwen和较早期的Gemini模型则波动较大。
本文介绍了GPF-LiveNews,这是一种流式评估协议,用于审查大型语言模型如何根据不同人口群体对实时新闻事件进行差异化框架建构,通过42个身份标签和7个提示族测量语义敏感性和情感差异。
本文引入了反事实解释一致性(CEC)框架,通过对齐个体与其反事实对应物之间的特征归因,检测并缓解结果公平模型中的隐藏程序偏差,并在信用和收入数据集上进行了实验。
研究者提出一种代理建模框架,可量化并解释黑盒大模型内部编码的医学知识,同时揭示有效关联与持续的种族偏见。
哥伦比亚与西北大学研究者提出一套流程,揭示大模型在抽象摘要生命故事访谈时对种族与性别存在的偏见,并指出表征伤害风险。
arXiv预印本在GPT-2 Small与Llama 3.2中定位编码刻板印象的神经元与注意力头,显示偏见集中在少数神经元子集,但消融它们几乎无法减少带偏文本生成。
Google Research 发布覆盖 12 种语言的 LocQA 数据集,发现多语言大模型在回答含混的地域相关问题时表现出强烈的美国中心与人口基数驱动的地域偏见。
学术研究揭示大模型存在系统性反事实不公:特权者讲的笑话被拒绝率高出67%,且被判定为更恶意,而内容完全相同的笑话若出自边缘群体则待遇相反。
# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用