nlp-evaluation

标签

Cards List
#nlp-evaluation

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL · 11小时前 缓存

本文介绍了“二阶偏见”,即LLM在判断有偏见内容时所表现出的偏见,并提出了一种基于认识论权利的推理任务来评估它。实验表明,该任务能够规避安全护栏,并揭示LLM评判者中系统性的群体偏见。

0 人收藏 0 人点赞
#nlp-evaluation

风格还是内容?在受控内容重叠下评估风格分类器

arXiv cs.CL · 2026-06-08 缓存

本文利用平行圣经翻译引入了一种受控内容重叠设置,用于评估风格分类器在多大程度上依赖内容线索而非实际风格特征。结果表明,当移除内容线索时,低重叠模型性能下降,而高重叠模型则迁移得更为稳健。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈