LLM智能体可预测社交媒体反应但仍不敌文本分类器：基于1511人12万+人格的仿真准确性基准测试

arXiv cs.CL 2026/04/23 04:00 论文

摘要

大规模研究发现，LLM智能体以70.7%的准确率预测个人社交媒体反应，却仍落后于简单TF-IDF分类器，凸显其操控风险与政策模拟价值。

arXiv:2604.19787v1 公告类型：new 摘要：社交媒体平台左右着数十亿人的观点形成与公共话语参与。随着自主AI智能体日益活跃于这些空间，其行为保真度对平台治理与民主韧性至关重要。既往研究表明，LLM驱动的智能体能复现总体调查回应，但极少研究检验其能否预测特定个体对特定内容的具体反应。本研究基于1,511名塞尔维亚受试者与27款大语言模型，构建12万+独特智能体-人格组合，基准测试LLM智能体预测人类社交媒体反应（点赞、点踩、评论、转发、无反应）的准确性。研究1中，智能体总体准确率达70.7%，LLM选择带来13个百分点的性能差异。研究2采用二元强制选择（点赞/点踩）并校正随机基线，智能体Matthews相关系数（MCC）为0.29，显著优于随机。然而，使用TF-IDF表示的传统文本监督分类器MCC达0.36，反超LLM智能体，表明预测增益源于语义访问而非独特的智能体推理。零样本人格提示智能体具备真实预测效度，警示可轻易部署行为各异AI智能体 swarm 操纵社交媒体，同时也为利用其仿真预测极化动态、指导AI政策提供契机。零样本智能体无需任务特定训练，可大规模快速部署于多元场景。局限包括单一国家样本，未来应拓展多语言测试与微调策略。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:02

# LLM智能体可预测社交媒体反应，但仍不敌文本分类器：基于1511人、12万+人格画像的仿真准确性基准测试
来源：https://arxiv.org/abs/2604.19787  
查看PDF（https://arxiv.org/pdf/2604.19787）

> 摘要：社交媒体平台左右着数十亿人的观点与公共话语参与方式。随着自主AI智能体日益活跃于这些空间，厘清其行为保真度对平台治理与民主韧性至关重要。既往研究已表明，LLM驱动的智能体能复现总体调查回答，却鲜少验证其能否预测特定个体对特定内容的反应。本研究以12万余组“智能体-人格”组合（源于1511名塞尔维亚受试者与27款大语言模型）为基准，评估LLM智能体预测人类社交媒体反应（点赞、点踩、评论、转发、无反应）的准确性。研究1中，智能体总体准确率达70.7%，不同LLM之间最大相差13个百分点。研究2采用二元强制选择（点赞/点踩）并引入校正机遇的指标，智能体Matthews相关系数（MCC）为0.29，显示具有超越随机的真实预测信号。然而，使用TF-IDF表征的传统文本监督分类器表现更佳（MCC 0.36），提示预测增益更多来自语义获取，而非智能体独有的推理能力。零样本人格提示智能体具备真实预测效度，警示我们：极易大规模部署的行为各异AI智能体群可能被用于操控社交媒体；同时也为利用此类智能体仿真极化动态、制定AI政策提供契机。零样本智能体无需任务特定训练，可在多元场景快速铺开。局限在于样本仅覆盖单一国家，未来需拓展多语种测试与微调策略。

## 提交记录

来自：Ljubisa Bojic［查看邮件（https://arxiv.org/show-email/6ba6425b/2604.19787）］**\[v1\]** 2026年3月31日（周二）19:27:59 UTC（1,491 KB）

LLM智能体可预测社交媒体反应但仍不敌文本分类器：基于1511人12万+人格的仿真准确性基准测试

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

多智能体LLM能否识别其同行？角色约束政治分析中的风格化指纹识别

LLM能否像消费者一样思考？基于ConsumerSimBench的众包反应重建基准测试

人类心理测量问卷误判LLM行为特征

在LLM个性化中重新聚焦人类

提交意见反馈