使用AI代理实现个性化算法大规模黑盒审计的自动化

arXiv cs.CL 论文

摘要

本文介绍了一个使用生成式AI代理来自动化个性化算法黑盒审计的框架,通过在2024年美国总统大选后于X平台部署1120个代理进行演示,发现算法推送相比时间线推送会放大有毒、极化且偏右翼的内容。

arXiv:2606.30801v1 公告类型: 新论文 摘要: 个性化算法决定了用户在线平台上看到的内容。审计这些系统十分困难,因为独立审计人员只有对算法的黑盒访问权限,而个性化又依赖于用户的属性、行为以及不断演化的交互历史。现有的审计方法面临权衡:使用真实用户的研究能捕捉真实行为,但成本高昂且难以控制;而傀儡账户审计虽然更容易扩展,但往往依赖脚本化行为,限制了真实性。此外,这两种方法都难以将用户属性与用户行为分离,限制了我们因果理解个性化的能力。为解决这一缺口,我们引入了一个框架,使用生成式AI代理作为合成账户的行为引擎,对个性化算法进行黑盒审计。每个代理被实例化为固定的人物角色,基于人口统计和政治调查数据,并通过推理平台内容并选择操作来与之交互。由于每个角色内部行为固定,而平台可见的信号(如年龄、性别或位置)可以实验性扰动,我们的设计能够进行反事实审计,探究平台如何响应用户属性。作为案例研究,我们在2024年美国总统大选后不久于X平台部署了1120个代理,涵盖14种人物角色和三种反事实条件,收集了超过20万次内容曝光。我们发现,相较于时间线推送,X平台的算法推送放大了有毒、极化、政治化以及偏右翼的内容,且放大程度因用户意识形态而异。反事实分析显示,人口统计信号以人物角色依赖的方式影响内容分发:汇总效应基本为零,而子群体效应在方向和幅度上各不相同。我们的工作确立了基于GenAI的代理作为算法审计的新工具。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:31

# 使用AI智能体大规模自动化个性化算法的黑盒审计
来源:https://arxiv.org/abs/2606.30801
查看PDF(https://arxiv.org/pdf/2606.30801)

> **摘要:** 个性化算法决定了用户在在线平台上看到的内容。审计这些系统难度很大,因为独立审计师只能通过黑盒访问算法,而个性化效果又取决于用户的属性、行为以及不断演变的交互历史。现有的审计方法面临权衡:使用真实用户的研究能捕捉真实行为,但成本高昂且难以控制;而傀儡账户审计虽更易规模化,但往往依赖脚本化行为,真实感有限。此外,这两种方法都难以将用户属性与用户行为解耦,限制了我们对个性化进行因果理解的能力。为解决这一问题,我们提出一个框架,使用生成式AI智能体作为合成账户的行为引擎,对个性化算法进行黑盒审计。每个智能体被赋予固定角色,基于人口统计与政治调查数据设定,并通过推理内容、选择行动来与平台内容交互。由于每个角色内部行为固定,而平台可见的信号(如年龄、性别或位置)可被实验性扰动,我们的设计能够对平台如何响应用户属性进行反事实审计。作为案例研究,我们在2024年美国大选后不久,在X平台上部署了1,120个智能体,涵盖14种角色和三种反事实条件,收集了超过20万次内容曝光。我们发现,与时间线相比,X的算法推荐流放大了有毒、极化、政治化及右倾内容,且放大程度因用户意识形态而异。反事实分析表明,人口统计信号对内容推送的影响随角色而变化:总体效应基本为零,但子群层面的效应在方向和大小上均有差异。本研究确立了基于GenAI的智能体作为算法审计的新工具。

## 提交历史

来自:Alessandro Morosini \[通过电子邮件查看(https://arxiv.org/show-email/9693250a/2606.30801)\] **\[v1\]**于2026年6月29日星期一18:25:09 UTC发布(1,395 KB)

相似文章

AI生成的社交机器人内容的对抗性创建与检测

arXiv cs.CL

本文提出了一种对抗性方法,用于创建和检测AI生成的社交机器人内容,并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练,能够在实际环境中显著超越现有的基于内容的机器人检测模型。