使用AI代理实现个性化算法大规模黑盒审计的自动化

arXiv cs.CL 2026/07/01 04:00 论文

摘要

本文介绍了一个使用生成式AI代理来自动化个性化算法黑盒审计的框架，通过在2024年美国总统大选后于X平台部署1120个代理进行演示，发现算法推送相比时间线推送会放大有毒、极化且偏右翼的内容。

arXiv:2606.30801v1 公告类型: 新论文摘要: 个性化算法决定了用户在线平台上看到的内容。审计这些系统十分困难，因为独立审计人员只有对算法的黑盒访问权限，而个性化又依赖于用户的属性、行为以及不断演化的交互历史。现有的审计方法面临权衡：使用真实用户的研究能捕捉真实行为，但成本高昂且难以控制；而傀儡账户审计虽然更容易扩展，但往往依赖脚本化行为，限制了真实性。此外，这两种方法都难以将用户属性与用户行为分离，限制了我们因果理解个性化的能力。为解决这一缺口，我们引入了一个框架，使用生成式AI代理作为合成账户的行为引擎，对个性化算法进行黑盒审计。每个代理被实例化为固定的人物角色，基于人口统计和政治调查数据，并通过推理平台内容并选择操作来与之交互。由于每个角色内部行为固定，而平台可见的信号（如年龄、性别或位置）可以实验性扰动，我们的设计能够进行反事实审计，探究平台如何响应用户属性。作为案例研究，我们在2024年美国总统大选后不久于X平台部署了1120个代理，涵盖14种人物角色和三种反事实条件，收集了超过20万次内容曝光。我们发现，相较于时间线推送，X平台的算法推送放大了有毒、极化、政治化以及偏右翼的内容，且放大程度因用户意识形态而异。反事实分析显示，人口统计信号以人物角色依赖的方式影响内容分发：汇总效应基本为零，而子群体效应在方向和幅度上各不相同。我们的工作确立了基于GenAI的代理作为算法审计的新工具。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:31

# 使用AI智能体大规模自动化个性化算法的黑盒审计
来源：https://arxiv.org/abs/2606.30801
查看PDF（https://arxiv.org/pdf/2606.30801）

> **摘要：** 个性化算法决定了用户在在线平台上看到的内容。审计这些系统难度很大，因为独立审计师只能通过黑盒访问算法，而个性化效果又取决于用户的属性、行为以及不断演变的交互历史。现有的审计方法面临权衡：使用真实用户的研究能捕捉真实行为，但成本高昂且难以控制；而傀儡账户审计虽更易规模化，但往往依赖脚本化行为，真实感有限。此外，这两种方法都难以将用户属性与用户行为解耦，限制了我们对个性化进行因果理解的能力。为解决这一问题，我们提出一个框架，使用生成式AI智能体作为合成账户的行为引擎，对个性化算法进行黑盒审计。每个智能体被赋予固定角色，基于人口统计与政治调查数据设定，并通过推理内容、选择行动来与平台内容交互。由于每个角色内部行为固定，而平台可见的信号（如年龄、性别或位置）可被实验性扰动，我们的设计能够对平台如何响应用户属性进行反事实审计。作为案例研究，我们在2024年美国大选后不久，在X平台上部署了1,120个智能体，涵盖14种角色和三种反事实条件，收集了超过20万次内容曝光。我们发现，与时间线相比，X的算法推荐流放大了有毒、极化、政治化及右倾内容，且放大程度因用户意识形态而异。反事实分析表明，人口统计信号对内容推送的影响随角色而变化：总体效应基本为零，但子群层面的效应在方向和大小上均有差异。本研究确立了基于GenAI的智能体作为算法审计的新工具。

## 提交历史

来自：Alessandro Morosini \[通过电子邮件查看（https://arxiv.org/show-email/9693250a/2606.30801）\] **\[v1\]**于2026年6月29日星期一18:25:09 UTC发布（1,395 KB）

使用AI代理实现个性化算法大规模黑盒审计的自动化

相似文章

AI智能体很有趣，直到它们开始接触真实数据

AI生成的社交机器人内容的对抗性创建与检测

AI代理是否应决定受众选择、个性化与客户旅程？

社交媒体的未来：基于用户数据的即时AI生成个性化内容

智能体真的能从错误推荐中学习吗？

提交意见反馈