噪声感知下的选择性控制：模块化网络中被聚合指标掩盖的治理失败

Hugging Face Daily Papers 2026/06/12 00:00 论文

摘要

本文表明，内容审核系统可能对连接不同社区的桥梁用户造成不成比例的伤害，即使聚合准确性指标看似令人满意，且在假阳性严重的情况下治理损失会增加。

一个内容审核系统可能在所有标准准确性指标上得分很高，但如果其错误落在那些连接原本分离的社区的少数用户身上，仍然会造成实际伤害。我们通过一个基于智能体的模型展示了这一点，其中 N=240 个学习智能体在一个社区结构化的网络上发布无害、有益或危险的内容，而监管者会移除或惩罚任何被噪声分类器标记的内容。随着噪声的变化，整体有效性几乎没有变化（单因素方差分析，p=0.96）：从聚合指标来看，一切正常。损害反而集中在这些桥梁用户身上，他们的有用帖子被错误压制，危险帖子被错误放过。一种将这两种错误单独定价于执法成本之外的治理损失（L_gov）在假阳性严重的噪声环境下会翻倍以上。聚合准确性掩盖了谁受到伤害，而审计成本低廉的指标是用户的连接数（度），它几乎是定义桥梁的介数中心性的完美代理变量（r=0.96）。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - 噪声感知下的选择性控制：模块化网络中聚合指标隐藏的治理失败

Source: https://huggingface.co/papers/2606.14819

摘要

内容审核系统可能会对连接不同社区的桥梁用户造成不成比例的伤害，即使总体准确度指标看似令人满意，治理损失在假阳性主导的条件下会显著增加。

如果一个内容审核系统的错误集中发生在连接原本独立社区的少数用户身上，那么即使它在所有标准准确率指标上都表现良好，也可能造成实际伤害。我们在一个基于智能体的模型（agent-based model）中展示了这一点：N=240个学习智能体位于社区结构网络（community-structured network）中，每个智能体发布无害、有益或危险的内容，监管者（regulator）移除或惩罚任何被噪声分类器（noisy classifier）标记的内容。随着噪声变化，整体效用几乎不变（单因素方差分析，p=0.96）：从聚合指标看，一切正常。然而伤害集中发生在这些桥梁用户（bridge users）身上：他们的有益帖子被错误压制，而危险帖子却被错误放过。一种将这两种错误与执行成本分开定价的治理损失（governance loss）（L_gov）在假阳性（误报）主导（false-positive-heavy）的噪声条件下增加了一倍以上。聚合准确率隐藏了谁受到伤害，而成本低廉的可审计指标是用户拥有的连接数（度数（degree）），这是定义桥梁的中介性（betweenness）的近乎完美的代理（r=0.96）。

查看arXiv页面（https://arxiv.org/abs/2606.14819）查看PDF（https://arxiv.org/pdf/2606.14819）GitHub0（https://github.com/YehudaItkin/noisy-perception-governance）添加到收藏集（https://huggingface.co/login?next=%2Fpapers%2F2606.14819）

在你的智能体中获取这篇论文：

hf papers read 2606.14819

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.14819以从该页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.14819以从该页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.14819以从该页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从该页面链接。

相似文章

社交媒体毒性——“嘈杂的房间”

Hacker News Top

一项斯坦福大学研究分析了数十亿条社交媒体帖子后发现，仅约3%的用户会发布严重有害内容，但互动驱动型算法不成比例地放大了这部分少数声音，从而扭曲公众认知，并导致大多数用户被迫自我审查。

选择性信号分类中的虚假安全感：对风险控制的边界紧密性与可交换性的审计

arXiv cs.LG

本文审计了信号域检测器中用于选择性分类的无分布风险控制方法的可靠性，发现朴素阈值法常常超出其声称的预算，并且可交换性违反导致证书失败。

认知代价：在边缘原生SLM中消融系统1与系统2推理以实现去中心化共识

Hugging Face Daily Papers

实证研究表明，在去中心化自治组织（DAO）中作为边缘原生治理防火墙时，小型语言模型凭借系统1直觉可获得100%对抗鲁棒性，但引入系统2推理后却完全崩溃。

AI 安全的 geopolitics：区域大语言模型偏差的因果分析

arXiv cs.AI

本文引入了一个概率图模型框架，以因果方式审核大语言模型（LLM）的安全机制，揭示出由于忽视了语境的毒性，标准的观测指标高估了人口统计学偏差。

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL

# 懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度来源：[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校洛杉矶加利福尼亚州美国 Rebecca Pattichis 独立研究员 Alb