hate-speech

标签

Cards List
#hate-speech

大型语言模型中的毒性测量与缓解:一项全面的复制研究

arXiv cs.CL · 2天前 缓存

这项复制研究评估了DExperts在缓解LLM毒性方面的效果,发现其对显式毒性几乎完美安全,但对隐式仇恨言论效果降低,并且存在显著的延迟权衡。

0 人收藏 0 人点赞
#hate-speech

懂的都懂(但AI不懂):自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL · 2026-04-21 缓存

# 懂的都懂(但AI不懂):自动内容审核未能捕捉社群对去污名化用语的多元态度 来源:[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国 Rebecca Pattichis 独立研究员 Alb

0 人收藏 0 人点赞
← 返回首页

提交意见反馈