LLM智能体可预测社交媒体反应但仍不敌文本分类器:基于1511人12万+人格的仿真准确性基准测试
摘要
大规模研究发现,LLM智能体以70.7%的准确率预测个人社交媒体反应,却仍落后于简单TF-IDF分类器,凸显其操控风险与政策模拟价值。
arXiv:2604.19787v1 公告类型:new
摘要:社交媒体平台左右着数十亿人的观点形成与公共话语参与。随着自主AI智能体日益活跃于这些空间,其行为保真度对平台治理与民主韧性至关重要。既往研究表明,LLM驱动的智能体能复现总体调查回应,但极少研究检验其能否预测特定个体对特定内容的具体反应。本研究基于1,511名塞尔维亚受试者与27款大语言模型,构建12万+独特智能体-人格组合,基准测试LLM智能体预测人类社交媒体反应(点赞、点踩、评论、转发、无反应)的准确性。研究1中,智能体总体准确率达70.7%,LLM选择带来13个百分点的性能差异。研究2采用二元强制选择(点赞/点踩)并校正随机基线,智能体Matthews相关系数(MCC)为0.29,显著优于随机。然而,使用TF-IDF表示的传统文本监督分类器MCC达0.36,反超LLM智能体,表明预测增益源于语义访问而非独特的智能体推理。零样本人格提示智能体具备真实预测效度,警示可轻易部署行为各异AI智能体 swarm 操纵社交媒体,同时也为利用其仿真预测极化动态、指导AI政策提供契机。零样本智能体无需任务特定训练,可大规模快速部署于多元场景。局限包括单一国家样本,未来应拓展多语言测试与微调策略。
查看缓存全文
缓存时间: 2026/04/23 10:02
# LLM智能体可预测社交媒体反应,但仍不敌文本分类器:基于1511人、12万+人格画像的仿真准确性基准测试 来源:https://arxiv.org/abs/2604.19787 查看PDF(https://arxiv.org/pdf/2604.19787) > 摘要:社交媒体平台左右着数十亿人的观点与公共话语参与方式。随着自主AI智能体日益活跃于这些空间,厘清其行为保真度对平台治理与民主韧性至关重要。既往研究已表明,LLM驱动的智能体能复现总体调查回答,却鲜少验证其能否预测特定个体对特定内容的反应。本研究以12万余组“智能体-人格”组合(源于1511名塞尔维亚受试者与27款大语言模型)为基准,评估LLM智能体预测人类社交媒体反应(点赞、点踩、评论、转发、无反应)的准确性。研究1中,智能体总体准确率达70.7%,不同LLM之间最大相差13个百分点。研究2采用二元强制选择(点赞/点踩)并引入校正机遇的指标,智能体Matthews相关系数(MCC)为0.29,显示具有超越随机的真实预测信号。然而,使用TF-IDF表征的传统文本监督分类器表现更佳(MCC 0.36),提示预测增益更多来自语义获取,而非智能体独有的推理能力。零样本人格提示智能体具备真实预测效度,警示我们:极易大规模部署的行为各异AI智能体群可能被用于操控社交媒体;同时也为利用此类智能体仿真极化动态、制定AI政策提供契机。零样本智能体无需任务特定训练,可在多元场景快速铺开。局限在于样本仅覆盖单一国家,未来需拓展多语种测试与微调策略。 ## 提交记录 来自:Ljubisa Bojic[查看邮件(https://arxiv.org/show-email/6ba6425b/2604.19787)]**\[v1\]** 2026年3月31日(周二)19:27:59 UTC(1,491 KB)
相似文章
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
多智能体LLM能否识别其同行?角色约束政治分析中的风格化指纹识别
本文研究了LLM是否能够从角色约束政治分析文本中的风格化指纹识别出自己的模型家族,即使在提示层面匿名化后也是如此。研究结果证实匿名化不足,并对欧盟AI法案合规性和多智能体系统验证有影响。
LLM能否像消费者一样思考?基于ConsumerSimBench的众包反应重建基准测试
介绍了ConsumerSimBench,一个用于评估LLM从真实中文社交媒体话题中重建众包消费者反应能力的基准测试。测试表明,前沿模型仅覆盖了47.8%的真实反应标准,凸显了技术基准性能与社会直觉之间的差距。
人类心理测量问卷误判LLM行为特征
本文发现,人类心理测量问卷无法可靠预测LLM在真实交互中的行为,并提出基于生成的分析方法作为更准确的替代方案。
在LLM个性化中重新聚焦人类
本文研究了在评估LLM个性化的三个阶段(属性提取、相关性匹配和响应生成)中,合成数据与人类数据之间的差距。结果表明,模型在真实人类数据上表现更差,作者引入了轻量级训练干预措施以改善对齐。