hate-speech

#hate-speech

土耳其语和阿拉伯语中的仇恨言论检测：一项综合研究

arXiv cs.CL ↗ · 2天前缓存

介绍了针对土耳其语和阿拉伯语的全面仇恨言论数据集，并开发了基于BERT的最先进模型，用于仇恨言论分析，包括分类、强度预测、目标识别和跨度检测。

0 人收藏 0 人点赞

#hate-speech

多数票压制少数价值观：HateXplain中仇恨/冒犯边界的标注者分歧

arXiv cs.CL ↗ · 4天前缓存

本文发现，HateXplain中42.6%的标注者分歧集中在仇恨/冒犯边界，表明多数票压制了少数价值观，导致模型对有争议的输入输出错误但高度自信的预测。

0 人收藏 0 人点赞

#hate-speech

使用多LLM代理模拟仇恨言论级联：经验基础、建模保真度与干预策略

arXiv cs.AI ↗ · 2026-06-18 缓存

本文研究了Bluesky上的仇恨言论级联，并使用多LLM代理进行模拟，发现此类模拟再现了立场单一文化和毒性增量方向等关键模式，且在密集网络上进行放大器定位可使仇恨内容减少7.5%–12.9%，且良性副作用较低。

0 人收藏 0 人点赞

#hate-speech

Meta放宽规则后，针对政治人物的种族歧视言论激增三倍

Ars Technica ↗ · 2026-06-10 缓存

数字仇恨对抗中心（CCDH）的一份新报告显示，Meta放宽内容审核规则后，针对政治人物的种族歧视言论增加了三倍，暴力威胁和仇恨言论增加了四倍，欺凌行为增加了一倍。

0 人收藏 0 人点赞

#hate-speech

Meta更改了其言论规则。随后针对政治人物的威胁激增

Wired ↗ · 2026-06-09 缓存

来自Center for Countering Digital Hate的新研究显示，在Meta于2025年初放宽言论规则的六个月内，Facebook上针对美国国会议员的辱骂评论、暴力威胁和仇恨言论增加了三到四倍。

0 人收藏 0 人点赞

#hate-speech

@elonmusk: Grok

X AI KOLs Following ↗ · 2026-05-26 缓存

埃隆·马斯克强调了Grok对一位用户的回复，该用户复制了Gemini对比利时仇恨言论定罪的解读，并要求Grok进行回应。

0 人收藏 0 人点赞

#hate-speech

在仇恨言论与错误信息交汇处的辅助性反言论写作

arXiv cs.CL ↗ · 2026-05-22 缓存

本文研究在仇恨言论与错误信息同时出现时，利用大型语言模型辅助专家撰写反言论，通过人工评估测试了知识驱动策略。结合事实核查员与非政府组织指南的混合策略被证明最为有效。

0 人收藏 0 人点赞

#hate-speech

大型语言模型中的毒性测量与缓解：一项全面的复制研究

arXiv cs.CL ↗ · 2026-05-15 缓存

这项复制研究评估了DExperts在缓解LLM毒性方面的效果，发现其对显式毒性几乎完美安全，但对隐式仇恨言论效果降低，并且存在显著的延迟权衡。

0 人收藏 0 人点赞

#hate-speech

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL ↗ · 2026-04-21 缓存

# 懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度来源：[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校洛杉矶加利福尼亚州美国 Rebecca Pattichis 独立研究员 Alb

0 人收藏 0 人点赞

hate-speech

提交意见反馈