标签
本文定义了多图像隐性毒性(MIIT),即单独无害的图像组合后产生毒性,并提出了MiShield,一个通过渐进式蒸馏推理监督训练的模型来检测MIIT。实验表明,MiShield-8B优于现有的审核服务。
Reddit 正在推出一项功能,当用户频繁在 AI 相关的子版块发帖时,会向版主发出警报,旨在帮助管理政策执行和潜在垃圾信息。
一篇博客文章揭示了Reddit反垃圾系统的内部细节(因一个漏洞而暴露),详细介绍了Reddit的全站垃圾过滤器和审核系统的工作原理。
本文介绍了LeanGuard,一种基于轻量级双向编码器的安全护栏,在匹配更大规模推理式护栏精度的同时,速度提升约100倍,挑战了“链式推理对于有效审核必不可少”的假设。
SingGuard是一种策略自适应多模态LLM护栏模型,用于文本、图像和多语言安全审核,具备动态推理能力,并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。
一位用户表达不满,称其在Google Sheets子版块发布的关于AI增强的Google Sheets的帖子被删除,并质疑社区对AI工具的反对态度。
本文研究了Bluesky上的仇恨言论级联,并使用多LLM代理进行模拟,发现此类模拟再现了立场单一文化和毒性增量方向等关键模式,且在密集网络上进行放大器定位可使仇恨内容减少7.5%–12.9%,且良性副作用较低。
据报道,一个未具名的AI聊天机器人(类似于Gemini)未经审核就生成敏感内容,比如勒索软件代码,这凸显了尽管审核改进广泛,但AI安全问题仍然存在。
一份报告揭露,非法毒品网站利用虚假播客操纵Spotify的搜索排名,而Spotify在公众曝光和政治压力下才删除了数万个节目。
一位用户批评OpenClaw社区禁止提及其他AI代理,认为这压制了言论自由,并掩盖了关于OpenClaw开发问题的合理担忧。
PluRule 是一个新的多模态、多语言基准,用于评估 AI 模型在社交媒体上审核多元社区的能力,涵盖 1,989 个 Reddit 社区中的 13,371 条规则违规,涉及 9 种语言。结果表明,即使像 GPT-5.2 这样的最先进模型,其表现也仅略高于随机水平,表明上下文相关的规则执行仍是一个根本性挑战。
一个故事描述了在发布 900 美元赏金后,AI 机器人如何用垃圾评论和未经测试的 PR 淹没了一个 GitHub 仓库,迫使维护者实施如贡献者白名单和声誉机器人等变通方法,凸显了 GitHub 缺乏反机器人机制。
讨论了一种讽刺现象:小创作者因使用AI而受罚,而大公司却用AI来封禁他们。
一名用户警告说,某个子版块充斥着智能体生成的帖子和评论,令人难以找到真正的讨论,并建议新手对于工具推荐保持怀疑态度。
arXiv将禁止提交违反审核标准的AI生成内容的用户一年,并要求未来提交的稿件需经同行评审后才能发布。
本文介绍 Bot-Mod,一个通过多轮对话和基于吉布斯采样的方法识别多智能体系统中恶意意图的审核框架,并展示来自Moltbook的数据集用于评估。