标签
介绍了针对土耳其语和阿拉伯语的全面仇恨言论数据集,并开发了基于BERT的最先进模型,用于仇恨言论分析,包括分类、强度预测、目标识别和跨度检测。
本文发现,HateXplain中42.6%的标注者分歧集中在仇恨/冒犯边界,表明多数票压制了少数价值观,导致模型对有争议的输入输出错误但高度自信的预测。
本文研究了Bluesky上的仇恨言论级联,并使用多LLM代理进行模拟,发现此类模拟再现了立场单一文化和毒性增量方向等关键模式,且在密集网络上进行放大器定位可使仇恨内容减少7.5%–12.9%,且良性副作用较低。
数字仇恨对抗中心(CCDH)的一份新报告显示,Meta放宽内容审核规则后,针对政治人物的种族歧视言论增加了三倍,暴力威胁和仇恨言论增加了四倍,欺凌行为增加了一倍。
来自Center for Countering Digital Hate的新研究显示,在Meta于2025年初放宽言论规则的六个月内,Facebook上针对美国国会议员的辱骂评论、暴力威胁和仇恨言论增加了三到四倍。
埃隆·马斯克强调了Grok对一位用户的回复,该用户复制了Gemini对比利时仇恨言论定罪的解读,并要求Grok进行回应。
本文研究在仇恨言论与错误信息同时出现时,利用大型语言模型辅助专家撰写反言论,通过人工评估测试了知识驱动策略。结合事实核查员与非政府组织指南的混合策略被证明最为有效。
这项复制研究评估了DExperts在缓解LLM毒性方面的效果,发现其对显式毒性几乎完美安全,但对隐式仇恨言论效果降低,并且存在显著的延迟权衡。
# 懂的都懂(但AI不懂):自动内容审核未能捕捉社群对去污名化用语的多元态度 来源:[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校 洛杉矶 加利福尼亚州 美国 Rebecca Pattichis 独立研究员 Alb