moderation

#moderation

安全独处，危险共处：当良性图像组合时防范隐性毒性

arXiv cs.CL ↗ · 1小时前缓存

本文定义了多图像隐性毒性（MIIT），即单独无害的图像组合后产生毒性，并提出了MiShield，一个通过渐进式蒸馏推理监督训练的模型来检测MIIT。实验表明，MiShield-8B优于现有的审核服务。

0 人收藏 0 人点赞

#moderation

Reddit 现向版主警告频繁在 AI 子版块发帖的用户

Reddit r/artificial ↗ · 9小时前

Reddit 正在推出一项功能，当用户频繁在 AI 相关的子版块发帖时，会向版主发出警报，旨在帮助管理政策执行和潜在垃圾信息。

0 人收藏 0 人点赞

#moderation

Reddit反垃圾系统内部探秘

Lobsters Hottest ↗ · 4天前缓存

一篇博客文章揭示了Reddit反垃圾系统的内部细节（因一个漏洞而暴露），详细介绍了Reddit的全站垃圾过滤器和审核系统的工作原理。

0 人收藏 0 人点赞

#moderation

安全护栏需要推理吗？LeanGuard：一种快速轻量的鲁棒审核方法

arXiv cs.AI ↗ · 6天前缓存

本文介绍了LeanGuard，一种基于轻量级双向编码器的安全护栏，在匹配更大规模推理式护栏精度的同时，速度提升约100倍，挑战了“链式推理对于有效审核必不可少”的假设。

0 人收藏 0 人点赞

#moderation

我们很抱歉

Reddit r/openclaw ↗ · 2026-06-25

平台对过度审核表示歉意，移除了敏感词屏蔽，简化了规则，并开启了图片和链接分享功能，鼓励用户友善相待，享受乐趣。

0 人收藏 0 人点赞

#moderation

SingGuard: 策略自适应多模态LLM护栏与动态推理

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

SingGuard是一种策略自适应多模态LLM护栏模型，用于文本、图像和多语言安全审核，具备动态推理能力，并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。

0 人收藏 0 人点赞

#moderation

我不明白为什么这里的许多子版块都如此反对AI工具

Reddit r/ArtificialInteligence ↗ · 2026-06-20

一位用户表达不满，称其在Google Sheets子版块发布的关于AI增强的Google Sheets的帖子被删除，并质疑社区对AI工具的反对态度。

0 人收藏 0 人点赞

#moderation

拉取请求限制正在减少噪音

Hacker News Top ↗ · 2026-06-19 缓存

GitHub 引入了持久的拉取请求限制，以帮助开源维护者管理贡献量并减少低质量噪音，尤其是来自 AI 生成的拉取请求。

0 人收藏 0 人点赞

#moderation

使用多LLM代理模拟仇恨言论级联：经验基础、建模保真度与干预策略

arXiv cs.AI ↗ · 2026-06-18 缓存

本文研究了Bluesky上的仇恨言论级联，并使用多LLM代理进行模拟，发现此类模拟再现了立场单一文化和毒性增量方向等关键模式，且在密集网络上进行放大器定位可使仇恨内容减少7.5%–12.9%，且良性副作用较低。

0 人收藏 0 人点赞

#moderation

AI聊天机器人生成的疯狂敏感信息

Reddit r/artificial ↗ · 2026-06-11

据报道，一个未具名的AI聊天机器人（类似于Gemini）未经审核就生成敏感内容，比如勒索软件代码，这凸显了尽管审核改进广泛，但AI安全问题仍然存在。

0 人收藏 0 人点赞

#moderation

毒品网站通过虚假播客劫持Spotify搜索排名

Wired ↗ · 2026-06-11 缓存

一份报告揭露，非法毒品网站利用虚假播客操纵Spotify的搜索排名，而Spotify在公众曝光和政治压力下才删除了数万个节目。

0 人收藏 0 人点赞

#moderation

无AI的Hacker News

Hacker News Top ↗ · 2026-06-05

据报道，Hacker News 正在从其平台上移除或过滤与人工智能相关的内容。

0 人收藏 0 人点赞

#moderation

为什么版主不允许提及比OpenClaw更好的替代选项？

Reddit r/openclaw ↗ · 2026-05-22

一位用户批评OpenClaw社区禁止提及其他AI代理，认为这压制了言论自由，并掩盖了关于OpenClaw开发问题的合理担忧。

0 人收藏 0 人点赞

#moderation

PluRule：一个用于审核社交媒体上多元社区的基准

arXiv cs.CL ↗ · 2026-05-19 缓存

PluRule 是一个新的多模态、多语言基准，用于评估 AI 模型在社交媒体上审核多元社区的能力，涵盖 1,989 个 Reddit 社区中的 13,371 条规则违规，涉及 9 种语言。结果表明，即使像 GPT-5.2 这样的最先进模型，其表现也仅略高于随机水平，表明上下文相关的规则执行仍是一个根本性挑战。

0 人收藏 0 人点赞

#moderation