toxicity

#toxicity

大型语言模型中的毒性测量与缓解：一项全面的复制研究

arXiv cs.CL ↗ · 2天前缓存

这项复制研究评估了DExperts在缓解LLM毒性方面的效果，发现其对显式毒性几乎完美安全，但对隐式仇恨言论效果降低，并且存在显著的延迟权衡。

0 人收藏 0 人点赞

#toxicity

Hacker News Top ↗ · 5天前缓存

一项斯坦福大学研究分析了数十亿条社交媒体帖子后发现，仅约3%的用户会发布严重有害内容，但互动驱动型算法不成比例地放大了这部分少数声音，从而扭曲公众认知，并导致大多数用户被迫自我审查。

0 人收藏 0 人点赞