使用AI代理实现个性化算法大规模黑盒审计的自动化
摘要
本文介绍了一个使用生成式AI代理来自动化个性化算法黑盒审计的框架,通过在2024年美国总统大选后于X平台部署1120个代理进行演示,发现算法推送相比时间线推送会放大有毒、极化且偏右翼的内容。
arXiv:2606.30801v1 公告类型: 新论文
摘要: 个性化算法决定了用户在线平台上看到的内容。审计这些系统十分困难,因为独立审计人员只有对算法的黑盒访问权限,而个性化又依赖于用户的属性、行为以及不断演化的交互历史。现有的审计方法面临权衡:使用真实用户的研究能捕捉真实行为,但成本高昂且难以控制;而傀儡账户审计虽然更容易扩展,但往往依赖脚本化行为,限制了真实性。此外,这两种方法都难以将用户属性与用户行为分离,限制了我们因果理解个性化的能力。为解决这一缺口,我们引入了一个框架,使用生成式AI代理作为合成账户的行为引擎,对个性化算法进行黑盒审计。每个代理被实例化为固定的人物角色,基于人口统计和政治调查数据,并通过推理平台内容并选择操作来与之交互。由于每个角色内部行为固定,而平台可见的信号(如年龄、性别或位置)可以实验性扰动,我们的设计能够进行反事实审计,探究平台如何响应用户属性。作为案例研究,我们在2024年美国总统大选后不久于X平台部署了1120个代理,涵盖14种人物角色和三种反事实条件,收集了超过20万次内容曝光。我们发现,相较于时间线推送,X平台的算法推送放大了有毒、极化、政治化以及偏右翼的内容,且放大程度因用户意识形态而异。反事实分析显示,人口统计信号以人物角色依赖的方式影响内容分发:汇总效应基本为零,而子群体效应在方向和幅度上各不相同。我们的工作确立了基于GenAI的代理作为算法审计的新工具。
查看缓存全文
缓存时间: 2026/07/01 05:31
# 使用AI智能体大规模自动化个性化算法的黑盒审计 来源:https://arxiv.org/abs/2606.30801 查看PDF(https://arxiv.org/pdf/2606.30801) > **摘要:** 个性化算法决定了用户在在线平台上看到的内容。审计这些系统难度很大,因为独立审计师只能通过黑盒访问算法,而个性化效果又取决于用户的属性、行为以及不断演变的交互历史。现有的审计方法面临权衡:使用真实用户的研究能捕捉真实行为,但成本高昂且难以控制;而傀儡账户审计虽更易规模化,但往往依赖脚本化行为,真实感有限。此外,这两种方法都难以将用户属性与用户行为解耦,限制了我们对个性化进行因果理解的能力。为解决这一问题,我们提出一个框架,使用生成式AI智能体作为合成账户的行为引擎,对个性化算法进行黑盒审计。每个智能体被赋予固定角色,基于人口统计与政治调查数据设定,并通过推理内容、选择行动来与平台内容交互。由于每个角色内部行为固定,而平台可见的信号(如年龄、性别或位置)可被实验性扰动,我们的设计能够对平台如何响应用户属性进行反事实审计。作为案例研究,我们在2024年美国大选后不久,在X平台上部署了1,120个智能体,涵盖14种角色和三种反事实条件,收集了超过20万次内容曝光。我们发现,与时间线相比,X的算法推荐流放大了有毒、极化、政治化及右倾内容,且放大程度因用户意识形态而异。反事实分析表明,人口统计信号对内容推送的影响随角色而变化:总体效应基本为零,但子群层面的效应在方向和大小上均有差异。本研究确立了基于GenAI的智能体作为算法审计的新工具。 ## 提交历史 来自:Alessandro Morosini \[通过电子邮件查看(https://arxiv.org/show-email/9693250a/2606.30801)\] **\[v1\]**于2026年6月29日星期一18:25:09 UTC发布(1,395 KB)
相似文章
AI智能体很有趣,直到它们开始接触真实数据
文章探讨了AI智能体与真实公司数据和工具交互时出现的治理挑战,强调了策略执行和审计追踪的必要性,并提到Trust3 AI作为潜在解决方案。
AI生成的社交机器人内容的对抗性创建与检测
本文提出了一种对抗性方法,用于创建和检测AI生成的社交机器人内容,并整理了一个多语言、跨平台的人类与AI消息配对数据集。在这种对抗性数据上进行训练,能够在实际环境中显著超越现有的基于内容的机器人检测模型。
AI代理是否应决定受众选择、个性化与客户旅程?
探讨AI代理接管受众选择、个性化等营销决策的潜力,质疑营销人员是否应将控制权交给AI。
社交媒体的未来:基于用户数据的即时AI生成个性化内容
探讨了未经用户同意的情况下,AI生成的个性化内容充斥社交媒体动态的可能性,引发了对操控和注意力经济的担忧。
智能体真的能从错误推荐中学习吗?
探讨AI智能体能否从被拒绝的推荐中学习,同时不损害用户隐私,也不过度个性化地适应个体独特的过去行为。