moderation

标签

Cards List
#moderation

安全独处,危险共处:当良性图像组合时防范隐性毒性

arXiv cs.CL · 1小时前 缓存

本文定义了多图像隐性毒性(MIIT),即单独无害的图像组合后产生毒性,并提出了MiShield,一个通过渐进式蒸馏推理监督训练的模型来检测MIIT。实验表明,MiShield-8B优于现有的审核服务。

0 人收藏 0 人点赞
#moderation

Reddit 现向版主警告频繁在 AI 子版块发帖的用户

Reddit r/artificial · 9小时前

Reddit 正在推出一项功能,当用户频繁在 AI 相关的子版块发帖时,会向版主发出警报,旨在帮助管理政策执行和潜在垃圾信息。

0 人收藏 0 人点赞
#moderation

Reddit反垃圾系统内部探秘

Lobsters Hottest · 4天前 缓存

一篇博客文章揭示了Reddit反垃圾系统的内部细节(因一个漏洞而暴露),详细介绍了Reddit的全站垃圾过滤器和审核系统的工作原理。

0 人收藏 0 人点赞
#moderation

安全护栏需要推理吗?LeanGuard:一种快速轻量的鲁棒审核方法

arXiv cs.AI · 6天前 缓存

本文介绍了LeanGuard,一种基于轻量级双向编码器的安全护栏,在匹配更大规模推理式护栏精度的同时,速度提升约100倍,挑战了“链式推理对于有效审核必不可少”的假设。

0 人收藏 0 人点赞
#moderation

我们很抱歉

Reddit r/openclaw · 2026-06-25

平台对过度审核表示歉意,移除了敏感词屏蔽,简化了规则,并开启了图片和链接分享功能,鼓励用户友善相待,享受乐趣。

0 人收藏 0 人点赞
#moderation

SingGuard: 策略自适应多模态LLM护栏与动态推理

Hugging Face Daily Papers · 2026-06-22 缓存

SingGuard是一种策略自适应多模态LLM护栏模型,用于文本、图像和多语言安全审核,具备动态推理能力,并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。

0 人收藏 0 人点赞
#moderation

我不明白为什么这里的许多子版块都如此反对AI工具

Reddit r/ArtificialInteligence · 2026-06-20

一位用户表达不满,称其在Google Sheets子版块发布的关于AI增强的Google Sheets的帖子被删除,并质疑社区对AI工具的反对态度。

0 人收藏 0 人点赞
#moderation

拉取请求限制正在减少噪音

Hacker News Top · 2026-06-19 缓存

GitHub 引入了持久的拉取请求限制,以帮助开源维护者管理贡献量并减少低质量噪音,尤其是来自 AI 生成的拉取请求。

0 人收藏 0 人点赞
#moderation

使用多LLM代理模拟仇恨言论级联:经验基础、建模保真度与干预策略

arXiv cs.AI · 2026-06-18 缓存

本文研究了Bluesky上的仇恨言论级联,并使用多LLM代理进行模拟,发现此类模拟再现了立场单一文化和毒性增量方向等关键模式,且在密集网络上进行放大器定位可使仇恨内容减少7.5%–12.9%,且良性副作用较低。

0 人收藏 0 人点赞
#moderation

AI聊天机器人生成的疯狂敏感信息

Reddit r/artificial · 2026-06-11

据报道,一个未具名的AI聊天机器人(类似于Gemini)未经审核就生成敏感内容,比如勒索软件代码,这凸显了尽管审核改进广泛,但AI安全问题仍然存在。

0 人收藏 0 人点赞
#moderation

毒品网站通过虚假播客劫持Spotify搜索排名

Wired · 2026-06-11 缓存

一份报告揭露,非法毒品网站利用虚假播客操纵Spotify的搜索排名,而Spotify在公众曝光和政治压力下才删除了数万个节目。

0 人收藏 0 人点赞
#moderation

无AI的Hacker News

Hacker News Top · 2026-06-05

据报道,Hacker News 正在从其平台上移除或过滤与人工智能相关的内容。

0 人收藏 0 人点赞
#moderation

为什么版主不允许提及比OpenClaw更好的替代选项?

Reddit r/openclaw · 2026-05-22

一位用户批评OpenClaw社区禁止提及其他AI代理,认为这压制了言论自由,并掩盖了关于OpenClaw开发问题的合理担忧。

0 人收藏 0 人点赞
#moderation

PluRule:一个用于审核社交媒体上多元社区的基准

arXiv cs.CL · 2026-05-19 缓存

PluRule 是一个新的多模态、多语言基准,用于评估 AI 模型在社交媒体上审核多元社区的能力,涵盖 1,989 个 Reddit 社区中的 13,371 条规则违规,涉及 9 种语言。结果表明,即使像 GPT-5.2 这样的最先进模型,其表现也仅略高于随机水平,表明上下文相关的规则执行仍是一个根本性挑战。

0 人收藏 0 人点赞
#moderation

@dabit3:一个非常有趣的故事,展示了 @github 目前的状态无法有效保护开源维护者免受 AI 滥用的影响。

X AI KOLs Following · 2026-05-18 缓存

一个故事描述了在发布 900 美元赏金后,AI 机器人如何用垃圾评论和未经测试的 PR 淹没了一个 GitHub 仓库,迫使维护者实施如贡献者白名单和声誉机器人等变通方法,凸显了 GitHub 缺乏反机器人机制。

0 人收藏 0 人点赞
#moderation

今日的讽刺。我们这些小创作者不能用AI,但大公司却可以使用同样的AI来封禁我们

Reddit r/artificial · 2026-05-18

讨论了一种讽刺现象:小创作者因使用AI而受罚,而大公司却用AI来封禁他们。

0 人收藏 0 人点赞
#moderation

这个子版块基本上没法用了,因为充斥着大量智能体生成的内容(帖子和评论)

Reddit r/AI_Agents · 2026-05-18

一名用户警告说,某个子版块充斥着智能体生成的帖子和评论,令人难以找到真正的讨论,并建议新手对于工具推荐保持怀疑态度。

0 人收藏 0 人点赞
#moderation

应禁止LLM生成的提交内容

Lobsters Hottest · 2026-05-15 缓存

Lobsters上的一位用户提议应禁止LLM生成的提交内容,认为应封禁发布此类内容的用户,并添加通知提醒提交者。

0 人收藏 0 人点赞
#moderation

发送AI生成的arXiv垃圾内容,将换来一年期提交禁令

Ars Technica · 2026-05-15 缓存

arXiv将禁止提交违反审核标准的AI生成内容的用户一年,并要求未来提交的稿件需经同行评审后才能发布。

0 人收藏 0 人点赞
#moderation

Moltbook 审核:通过多轮对话揭示隐藏意图

arXiv cs.AI · 2026-05-14 缓存

本文介绍 Bot-Mod,一个通过多轮对话和基于吉布斯采样的方法识别多智能体系统中恶意意图的审核框架,并展示来自Moltbook的数据集用于评估。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈