标签
这项复制研究评估了DExperts在缓解LLM毒性方面的效果,发现其对显式毒性几乎完美安全,但对隐式仇恨言论效果降低,并且存在显著的延迟权衡。
一项斯坦福大学研究分析了数十亿条社交媒体帖子后发现,仅约3%的用户会发布严重有害内容,但互动驱动型算法不成比例地放大了这部分少数声音,从而扭曲公众认知,并导致大多数用户被迫自我审查。