second-order-bias

标签

Cards List
#second-order-bias

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL · 13小时前 缓存

本文介绍了“二阶偏见”,即LLM在判断有偏见内容时所表现出的偏见,并提出了一种基于认识论权利的推理任务来评估它。实验表明,该任务能够规避安全护栏,并揭示LLM评判者中系统性的群体偏见。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈