nlp-evaluation

#nlp-evaluation

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL ↗ · 11小时前缓存

本文介绍了“二阶偏见”，即LLM在判断有偏见内容时所表现出的偏见，并提出了一种基于认识论权利的推理任务来评估它。实验表明，该任务能够规避安全护栏，并揭示LLM评判者中系统性的群体偏见。

0 人收藏 0 人点赞

#nlp-evaluation

arXiv cs.CL ↗ · 2026-06-08 缓存

本文利用平行圣经翻译引入了一种受控内容重叠设置，用于评估风格分类器在多大程度上依赖内容线索而非实际风格特征。结果表明，当移除内容线索时，低重叠模型性能下降，而高重叠模型则迁移得更为稳健。

0 人收藏 0 人点赞